С 5 сентября по 20 октября Хабр приоткрыл портал в оккультное IT-измерение, в котором обитают дата-сатанистысайентисты. Стоило произнести зловещее заклинание «стартует сезон Data Mining» и возложить на призовой алтарь игровой монитор, как на хаб слетелись десятки адептов.
Вместе с компанией SM Lab — спонсором сезона и куратором хаба — мы изучили присланные на конкурс манускрипты. Среди постов сезона были поразительные жемчужины. Лучшую из них определили читатели.
Под катом подводим итоги сезона, показываем лучшие посты, знакомимся с авторами, славим победителя и поясняем, почему Data Mining так важен в современном мире.
Немного о хабе Data Mining
С 2017 года на Хабре опубликовали около 1000 статей, так или иначе связанных с Data Mining. Темы этих статей теснее всего пересекаются с тремя хабами: машинным обучением, искусственным интеллектом, Natural Language Processing. Самые популярные посты на хабе прочли 200–300 тысяч пользователей.
Итоги сезона: NLP, широта тем, хардкор
Таблица участников сезона, их постов и рейтингов.
Участник | Пост | Рейтинг |
cointegrated | Первый нейросетевой переводчик для эрзянского языка | 68 |
UtrobinMV | Как создать переводчик, который переводит лучше, чем Google Translate | 61 |
averkij | Распознавание речи, генерация субтитров и изучение языков при помощи Whisper | 27 |
ElenaVolchenko | Как мы научились дистанционно оценивать техническое состояние автомобиля | 25 |
Robastik | Как сделать карту цен в Excel без макросов и VBA | 21 |
ANazarov | Проверка автокорреляции с использованием критерия Дарбина-Уотсона средствами Python | 15 |
newnew94 | Как организовать потоковую обработку данных. Часть 1 | 14 |
ValeriyaKur | NoRecSys. Машинное обучение — помощник в формировании ассортимента товаров для ритейла | 14 |
polina_ok | Продвинутые методы Uplift-моделирования | 13 |
matkov | Самообучающийся трекер объектов: как отслеживать цель в изменчивых условиях сцены | 13 |
newnew94 | Как организовать потоковую обработку данных. Часть 2 | 12 |
ANazarov | Проверка нормальности распределения с использованием критерия Эппса-Палли средствами Python | 11 |
Robastik | Бот или не бот — вот в чем вопрос | 11 |
slivka_83 | ClearML | Туториал | 11 |
ANazarov | Регрессионный анализ в DataScience. Простая линейная регрессия. Библиотека statsmodels | 9 |
rotor | Как полюбить задачи регрессии | 8 |
i_shutov | Важно ли DS аналитику знать про software development? | 8 |
slivka_83 | Dagster | Туториал | 8 |
RUBDA | Как обезличить персональные данные | 7 |
i_shutov | Jira, Jirа! Повернись к лесу задом, ко мне передом | 6 |
slivka_83 | Evidently или как пасти модели в проде | 3 |
После прочтения двух десятков конкурсных манускриптов — тех, что прошли строгую модерацию, — мы сделали несколько интересных выводов.
Во-первых, читатели на хабе Data Mining больше всего интересуются темой нейросетевых переводов и с интересом о них читают. Статья-победитель и вообще весь топ-3 посвящены проблемам NLP, распознавания текста или речи.
Во-вторых, хаб Data Mining охватывает не только узкий круг тем, связанных с обработкой текстов. Вне топа-3 не выходит выявить какую-то общую для всех текстов парадигму: авторы круто пишут про формирование ассортимента товаров для ретейла, про дистанционную оценку технического состояния автомобилей, извлечение данных из трекеров действий, выявление закономерностей в поведении ботов, составление карты цен в Excel без макросов…
В-третьих, такая широта тематики делает тексты только глубже. Авторы написали много хардкорных туториалов и гайдов, требующих от читателя хорошего понимания Data Mining. Например, туториалы по проверке автокорреляции с использованием критерия Дарбина — Уотсона средствами Python, по обезличиванию персональных данных, регрессионному анализу, организации потоковой обработки, по продвинутым методам Uplift-моделирования и прочим премудростям дата-майнинга.
Что такое Data Mining в современном мире: слово дата-оккультистам
Когда мы открыли сезон, то, конечно, хотели не только повысить интерес к Data Mining, но и узнать, какое место он занимает в современном мире. А у кого спросить об этом, если не у авторов самых понравившихся и запомнившихся статей? Заодно узнаем, почему они сами интересуются именно этой отраслью.
Из разряда «рокет-сайнс» — в обыденность
Data Mining для меня — возможность получить полезные знания из легкодоступных данных. Можно найти валяющиеся под ногами, но скрытые от невооружённого взгляда ресурсы. Или сократить потери от субъективных финансовых решений. Или масштабировать решение типичной ситуации и заработать на этом.
В будущем, вероятно, повысится доступность данных, снизятся требования к аналитикам — это произойдёт из-за распространения полуфабрикатов и No/Low code инструментов анализа. Дрейф в обыденность из разряда «рокет-сайнс» продолжит ускоряться.
Я за, я топлю за популяризацию Excel-конвейеров для практических задач. Высокотехнологичные решения должны воплощаться в большом количестве продуктов широкого потребления.
Думаю, в ближайшее время признают глобальную пользу данных, они встанут по важности в один ряд с общественной инфраструктурой и общественными институтами.
Качественное развитие получат свободные открытые дата-сеты, в том числе государственные и муниципальные. Часть коммерческих данных, основанных на персональных данных, будет признана общественным достоянием.
Потребуется новая инфраструктура для дата-сетов, реализованная на принципах децентрализованных добычи, хранения и доступа к данным.
Денис aka Robastik
Автор статей Как сделать карту цен в Excel без макросов и VBA и Бот или не бот — вот в чём вопрос
Жду линейного развития и интересных библиотек
Data Mining не просто интересная тема, она напрямую связана с моей профессией, я Machine Learning Engineer. Помимо прочего, Data Mining открывает мне возможность участвовать в DS-соревнованиях. Плюс какая ещё профессия позволит убить кучу времени на тюнинг гиперпараметров? В выходные, ночью и абсолютно бесплатно :)
Направление будет развиваться, на мой взгляд, линейно. Вряд ли в ближайшее время изобретут новый AlexNet или BERT. Со времени появления первого прошло 10 лет, и принципиально нового вроде ничего не появилось. Так что я от будущего больше жду кучу новых интересных библиотек.
Вячеслав aka Slivka_83
Автор статьи Evidently, или Как пасти модели в проде и двух туториалов: по ClearML и Dagster
И в золотом стандарте найдётся что улучшить
Для меня эта тематика — неотъемлемая часть изучения предметной области конкретной задачи. Я смотрю на Data Mining не как на техническую манипуляцию данными, а как на один из кубиков в построении физической и математической модели решаемой задачи. По сути, это один из двух каналов коммуникации с реальным миром: Data Mining даёт информацию внутрь DS, Data Presentation позволяет выводить результаты работы во внешний мир.
Чтобы видеть в данных важные для решения задачи вещи, ставить правильные вопросы и понимать, где на них можно получить ответы, мало технических навыков по обработке данных, нужна широта познаний. Часто нужный ответ прячется в смежной области.
Если говорить про технику, то тут есть что улучшать по производительности и удобству работы. Даже в библиотеках, которые десятилетиями считали «золотым стандартом», нашлось что радикально улучшить. Главное — внимательно и вдумчиво поглядеть:
Number Parsing at a Gigabyte per Second, Parsing Gigabytes of JSON per Second.
Возможно, что-то из области ML может в будущем всё полностью или частично изменить, но я немного скептичен: помощь в обработке — скорее да, самостоятельная генерация хотя бы скелета решения — едва ли.
Илья Шутов aka i_shutov
Автор статей Jira, Jirа! Повернись к лесу задом, ко мне передом и Важно ли DS аналитику знать про software development
Потоковая обработка всё упростит
Data Mining занимает меня интересными и нетривиальными задачами. Мне интересно находить решения задач, которые имеют свою специфику в данных. Интересно находить тонкую нить для шаблонизации решения, то есть создать методологию, инструменты для того, чтобы Data Mining стал доступнее для всех. Задачи Data Mining дают мне возможность чувствовать себя золотоискателем и ощущать некую эйфорию, когда удаётся найти полезную информацию. Когда находят новые месторождения полезных ископаемых, в большинстве случаев начинается развитие региона — с точки зрения инфраструктуры, социальной сферы, предпринимательства, экономики и прочего. Так и Data Mining при обнаружении «клада» полезной информации даёт возможность развиваться в разных направлениях.
Со временем будут развиваться методологии и инструменты для решения задач Data Mining, чтобы сделать направление доступнее, снизить порог входа по компетенциям. А затем будут усложняться алгоритмы, процессы, чтобы сделать Data Mining эффективнее.
Думаю, в ближайшее время появятся инструменты потоковой обработки данных с применением методов машинного обучения, которые смогут значительно упростить задачи Data Mining. Батч-обработка, конечно же, останется, но ожидаю, что значительный скачок в развитии будет именно в streaming processing.
Евгений Н aka @newnew94
Автор гайда в двух частях Как организовать потоковую обработку данных. Часть 1 и Часть 2
Данные — не новая нефть: нефть так не берегут
«Данные — это новая нефть!» — эту цитату про важность сбора и обработки больших данных я услышала года три назад. Но сравнение Big Data с природными ресурсами, по моему мнению, не самое удачное: природные ресурсы так не берегут.
Я считаю, что данные — это обратная связь: от покупателей, пациентов, инвесторов, датчиков и прочих. Они, сами того не зная, оставляют цифровой след, который изучают исследователи данных, чтобы дать клиентам то, что им нужно. Или во многих случаях — навязать то, что не нужно.
Надеюсь, в будущем Data Mining и Data Science позволят оптимизировать процессы так, что клиенты будут получать то, что хотят, — и бизнесу это будет выгодно. Сейчас такая гармония — редкость.
Валерия Куренкова aka ValeriyaKur
Автор статьи NoRecSys. Машинное обучение — помощник в формировании ассортимента товаров для ретейла
Основные тренды задаёт и будет задавать развитие машинного обучения
Я занимаюсь задачами, связанными с глубоким обучением нейронных сетей. От объёма и качества данных зависит, сможешь ли ты решить поставленную задачу. Зачастую данные не лежат на поверхности, их нужно извлечь, иногда даже сгенерировать с помощью нейронных сетей. Например, я это делаю и с помощью машинного перевода. Использование глубокого обучения в поиске информации даёт почти неограниченные возможности в Data Mining и позволяет найти информацию, которую обычным поиском не найти вовсе.
Основные тренды в данном направлении задаёт как раз развитие машинного обучения. Поэтому эти направления будут развиваться синхронно и очень стремительно. Думаю, в ближайшее время может появиться большое количество синтетических данных: синтетических фотографий, синтетических роликов, синтетических аудиоданных, синтетических текстов и так далее. Того, что можно нагенерировать почти в неограниченном количестве.
Михаил Утробин aka UtrobinMV
Профиль. Знает, Как создать переводчик, который переводит лучше, чем Google Translate.
А кто же победил? Чествуем лучшего мага Data Mining
Мы так увлеклись знакомством с участниками и их рассуждениями о будущем отрасли, что забыли о самом главном. Кто создал лучший, по мнению Хабра, текст в сезоне? Что это за текст? И что его автор думает о дата-майнинге?
Представляем победителя сезона — Давид Дале aka cointegrated. А вот его пост про первый нейросетевой переводчик для эрзянского языка. Слово триумфатору:
Термин Data Mining мне не нравится: общепринятого узкого смысла у него не сложилось, а в широком смысле так можно обозвать всё что угодно, если оно хоть как-то связано с данными. То есть это не одна тема, а огромный букет разных тем.
«Датамайнинговость» моей статьи заключается в том, что тексты, написанные разными людьми для каких-то различных целей, можно собрать и переиспользовать для новой цели — создания машинного переводчика для языка.
На что способен Data Mining и какие у него возможности? Сильный искусственный интеллект, сингулярность, порабощение человечества. Ну или если не выпендриваться, то автоматизация простых интеллектуальных задач типа перевода текстов или поиска ответов на несложные вопросы.
Анализ данных — это набор инструментов, сами по себе они никак мир не меняют. Но люди с их помощью могут творить и большое зло, и большое добро.
Методы распознавания лиц в 2022 году мне кажутся скорее ведущими к злу, ибо государство их активно пытается применять для слежки за гражданами.
Машинный перевод тоже можно использовать в плохих целях, но сейчас он скорее помогает людям распространять знания и лучше чувствовать и понимать друг друга, и поэтому мне хочется верить, что моя работа послужит благим целям.
Давид Дале aka cointegrated
Разработчик / Аналитик / Data Scientist / NLPшник / Победитель сезона Data Mining
Фидбэк от эксперта SM Lab
Итак, авторы нашего сезона написали много первоклассных материалов. Может, больше не осталось тем, которые можно и нужно раскрыть? А хаб можно архивировать до лучших времён? Чтобы развеять эти страхи, мы поговорили с куратором хаба Эдуардом Ильясовым, Data Science Team Lead в SM Lab. Он рассказал, какие темы сейчас наиболее востребованы, какие по-прежнему слабо представлены на Хабре и какие выводы можно сделать по итогам сезона.
В нашей работе особенно востребованы материалы на тему персонализации данных, Markdown Optimization и прогнозирования продаж товаров с низкой частотой покупок. Например, одежды или обуви. Сейчас мы ищем специалистов, Data / ML Engineer, которые усилят наши команды data-продуктов.
Хотелось бы видеть на Хабре больше постов этой тематики. Сейчас мы добываем информацию в основном из научных статей, книг, тематических блогов. Стараемся посещать конференции профильных специалистов, тематические курсы.
В материалах сезона понравилась глубокая проработка темы: начиная с введения в проблематику, описания источников и способов получения данных и заканчивая созданием моделей. Разнообразие охваченных областей тоже впечатлило: потоковая обработка данных, CV, NLP. Единственное, чего явно не хватает некоторым статьям, — это прикладная часть.
Эдуард Ильясов
Data Science Team Lead в SM Lab
Итоги
Теперь вы знаете, чем интересен Data Mining, почему он так важен сейчас и будет ещё важнее в будущем. У вас под рукой отличная библиотека крутых текстов об этом направлении. Изучайте материалы нашего хаба, проникайтесь магией дата-оккультизма. А если у вас уже есть наработки в этой сфере и желание поделиться кейсами, идеями, опытом, пишите тексты на Хабр. Выберите, например, одну из актуальных тем, которых не хватило на хабе эксперту SM Lab.