Делимся самым большим в РФ пластом данных по онлайн-обучению с проектами по лингвистике, персонализации, педдизайну, ML

Перед Новым годом команда Михаила Sverdlove Свердлова объявила, что готова делиться обезличенными данными уроков Skyeng с внешними исследователями и стартапами. Вскоре после праздников мы поговорили с Мишей, о каких именно данных идет речь, что уже с ними делают и почему получить свой дата-сет можно, только написав ему на почту.

— Если вы делитесь данными, то почему бы просто не залить датасет куда-нибудь?
Самый большой корпус английского языка в России, по-моему, составляет 10 тысяч позиций. К концу января в нашей школе глобально прошло свыше 9,1 миллионов уроков — насколько знаю, большим набором именно по онлайн-образованию и урокам один-на-один обладают только китайские школы.

Мы знаем, что происходило и как менялись действия учителя и ученика за все уроки, которые мы провели, у нас есть трек истории всех упражнений по ним. Это порядка 120 метрик по учителям, а также около 300 параметров по детям двух возрастных групп (4-11 и 11-18 лет) и взрослым разных возрастов, городов, статусов (например, студентам) и так далее. И это точно не все параметры, которые мы можем собирать, — кажется можно использовать в 2-3 раза больше. На таком объеме история «вот ссылка на датасет, покрутите, кто хочет» едва ли будет работать.

— Кому вы готовы выгружать наборы данных по запросу?
Первый тип вероятных партнеров – это ученые и организации, которые занимаются фундаментальными исследованиями, пишут статьи и так далее. Обычно им нужна база для исследований — мы готовы ею стать.

Сейчас, например, мы обсуждаем совместные нейрофизиологические исследования с одним из крупнейших вузов в стране, а также партнерами из Кембриджа и Аризоны.

Для начала хотим взять текущий контент, разметить его определенным образом, — и нейрофизиологи запустят тест на людей, которые придут к ним и будут в таких “шапках-ушанках” обучаться. Мы поймем, как работают материалы на целевой аудитории, какие есть психологические и неврологические особенности, а потом мы сможем обучить модель на ретроданных, чтобы изменять контент и форматы, делая их максимально удобными для ученика.

Параллельно эти же метрики фокусировки и усвоения материала мы сейчас анализируем с одним из стартапов по аудио- и видеопотокам.

— Какую выгоду получит каждая из сторон?

1. Мы изначально делаем все бесплатно друг для друга.

2. Результаты исследования принадлежат обеим сторонам — неважно, стал эксперимент успешным или провалился, мы можем писать совместные статьи, быть референсной базой и т.д.

3. Если результат исследования положительный, партнер может коммерциализировать его, а мы — можем использовать для своих нужд.

Мы также готовы показывать заказчикам партнера конечные результаты применительно к сфере образования. Но сразу обсуждаем вопрос неконкуренции — это базовое условие. Например, с нейрофизиологами сразу оговорили, что если дело дойдет до продукта, год-два они не должны продавать его нашим прямым конкурентам. Грубо, китайским военным продать можно сразу, а другой онлайн-школе английского — когда-нибудь потом. Это пока не отточенная юристами формулировка, но выглядит приблизительно так.

— Ок, а если к вам придет коммерческий проект?
Компании, которые внедряют ML-инструментарий в образование или даже другие сферы, нам тоже интересны. Это могут быть инструменты для персонализации образовательных траекторий, синтеза или анализа речи, мотивации в процессе обучения, психологии и так далее.

Мы с такими уже работаем — например, определяем ряд пилотов, чтобы матчить преподавателя и ученика.

Поэтому стартапы, которые работают над ускорением процесса получения новых знаний, механиками и методиками быстрого длинного и глубокого запоминания, заняты рекомендательными системами и так далее — тоже приходите. Опять же, нужно будет обсудить вопрос неконкуренции.

— Ок, а как все это выглядит для партнера?
Пишите мне на data@skyeng.ru: расскажите про свои компетенции и желаемые тематики, обсудим это. Когда обо всем договорились, подписываем договор и гоу творить историю в образовании.

На нашей стороне будет несколько ребят — проджектов, которые вас подхватят и помогут своевременно получать все выгрузки, запускать эксперименты и так далее. Партнер передает нам алгоритмы и/или логику, мы запускаем механический анализ и отдаем партнеру уже агрегированный текстовый файл с описанием. Собственно данные — изображения, видео, аудио партнеру не передаются.

А в остальном… Просто пишите, не стесняйтесь, — или задавайте вопросы в комментариях, постараюсь ответить по-максимуму.

Источник: https://habr.com/ru/company/skyeng/blog/489010/

Вернуться к списку

Интересные статьи

История IT. Когда компьютеры были большими…

Некоторое время назад меня попросили рассказать или дать ссылки на историю развития IT-разработки, в которой была бы видна внутренняя логика развития, а не просто факты и события. Каз...

Производительность современной Java при работе с большим объёмом данных, часть 2

FYI: Первая часть. Бенчмарк пакетного конвейера Пакетный конвейер обрабатывает конечный объём сохранённых данных. Здесь нет потока результатов обработки, выходные данные агрегир...

Почему базы данных NoSQL — плохое решение для современных приложений

Здравствуйте, Хабр. Сегодня мы предлагаем вашему вниманию перевод статьи из блога MemSQL, которая исходно является рекламной (посвящена достоинствам MemSQL, обновлена по состоянию на начало ян...

Как сравнить: «изумительный авто» и «уродливый барак», в маркетинговом опросе и в больших данных

Все мы участвовали в опросах, онлайн или в реальной жизни. А когда начинаем новый проект, то без опросов не обойтись. Но иногда есть результаты опросов, с которыми непонятно что делать, кроме как...

«Уделяя внимание вопросам доступности, вы получаете крайне преданных пользователей»: интервью с Джоном Фоксом (Netflix)

Известно, что accessibility — это важно, но далеко не все уделяют доступности своего приложения достаточное внимание. Ещё известно, что появление компании NeXT и её последующая покупка App...