Разместить здесь вашу рекламу


Не всё то золото, что блестит: итоги сезона Data Mining

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

С 5 сентября по 20 октября Хабр приоткрыл портал в оккультное IT-измерение, в котором обитают дата-сатанистысайентисты. Стоило произнести зловещее заклинание «стартует сезон Data Mining» и возложить на призовой алтарь игровой монитор, как на хаб слетелись десятки адептов. 

Вместе с компанией SM Lab — спонсором сезона и куратором хаба — мы изучили присланные на конкурс манускрипты. Среди постов сезона были поразительные жемчужины. Лучшую из них определили читатели. 

Под катом подводим итоги сезона, показываем лучшие посты, знакомимся с авторами, славим победителя и поясняем, почему Data Mining так важен в современном мире.

Немного о хабе Data Mining

С 2017 года на Хабре опубликовали около 1000 статей, так или иначе связанных с Data Mining. Темы этих статей теснее всего пересекаются с тремя хабами: машинным обучением, искусственным интеллектом, Natural Language Processing. Самые популярные посты на хабе прочли 200–300 тысяч пользователей. 

Итоги сезона: NLP, широта тем, хардкор

Таблица участников сезона, их постов и рейтингов.

Участник

Пост

Рейтинг

cointegrated

Первый нейросетевой переводчик для эрзянского языка

68

UtrobinMV

Как создать переводчик, который переводит лучше, чем Google Translate

61

averkij

Распознавание речи, генерация субтитров и изучение языков при помощи Whisper

27

ElenaVolchenko

Как мы научились дистанционно оценивать техническое состояние автомобиля

25

Robastik

Как сделать карту цен в Excel без макросов и VBA

21

ANazarov

Проверка автокорреляции с использованием критерия Дарбина-Уотсона средствами Python

15

newnew94

Как организовать потоковую обработку данных. Часть 1

14

ValeriyaKur

NoRecSys. Машинное обучение — помощник в формировании ассортимента товаров для ритейла

14

polina_ok

Продвинутые методы Uplift-моделирования

13

matkov

Самообучающийся трекер объектов: как отслеживать цель в изменчивых условиях сцены

13

newnew94

Как организовать потоковую обработку данных. Часть 2

12

ANazarov

Проверка нормальности распределения с использованием критерия Эппса-Палли средствами Python

11

Robastik

Бот или не бот — вот в чем вопрос

11

slivka_83

ClearML | Туториал

11

ANazarov

Регрессионный анализ в DataScience. Простая линейная регрессия. Библиотека statsmodels

9

rotor

Как полюбить задачи регрессии

8

i_shutov

Важно ли DS аналитику знать про software development?

8

slivka_83

Dagster | Туториал

8

RUBDA

Как обезличить персональные данные

7

i_shutov

Jira, Jirа! Повернись к лесу задом, ко мне передом

6

slivka_83

Evidently или как пасти модели в проде

3

После прочтения двух десятков конкурсных манускриптов — тех, что прошли строгую модерацию, — мы сделали несколько интересных выводов. 

Во-первых, читатели на хабе Data Mining больше всего интересуются темой нейросетевых переводов и с интересом о них читают. Статья-победитель и вообще весь топ-3 посвящены проблемам NLP, распознавания текста или речи.

Во-вторых, хаб Data Mining охватывает не только узкий круг тем, связанных с обработкой текстов. Вне топа-3 не выходит выявить какую-то общую для всех текстов парадигму: авторы круто пишут про формирование ассортимента товаров для ретейла, про дистанционную оценку технического состояния автомобилей, извлечение данных из трекеров действий, выявление закономерностей в поведении ботов, составление карты цен в Excel без макросов…

В-третьих, такая широта тематики делает тексты только глубже. Авторы написали много хардкорных туториалов и гайдов, требующих от читателя хорошего понимания Data Mining. Например, туториалы по проверке автокорреляции с использованием критерия Дарбина — Уотсона средствами Python, по обезличиванию персональных данных, регрессионному анализу, организации потоковой обработки, по продвинутым методам Uplift-моделирования и прочим премудростям дата-майнинга.

Что такое Data Mining в современном мире: слово дата-оккультистам

Когда мы открыли сезон, то, конечно, хотели не только повысить интерес к Data Mining, но и узнать, какое место он занимает в современном мире. А у кого спросить об этом, если не у авторов самых понравившихся и запомнившихся статей? Заодно узнаем, почему они сами интересуются именно этой отраслью.


Из разряда «рокет-сайнс» — в обыденность

Data Mining для меня — возможность получить полезные знания из легкодоступных данных. Можно найти валяющиеся под ногами, но скрытые от невооружённого взгляда ресурсы. Или сократить потери от субъективных финансовых решений. Или масштабировать решение типичной ситуации и заработать на этом.

В будущем, вероятно, повысится доступность данных, снизятся требования к аналитикам — это произойдёт из-за распространения полуфабрикатов и No/Low code инструментов анализа. Дрейф в обыденность из разряда «рокет-сайнс» продолжит ускоряться.

Я за, я топлю за популяризацию Excel-конвейеров для практических задач. Высокотехнологичные решения должны воплощаться в большом количестве продуктов широкого потребления. 

Думаю, в ближайшее время признают глобальную пользу данных, они встанут по важности в один ряд с общественной инфраструктурой и общественными институтами.

Качественное развитие получат свободные открытые дата-сеты, в том числе государственные и муниципальные. Часть коммерческих данных, основанных на персональных данных, будет признана общественным достоянием.

Потребуется новая инфраструктура для дата-сетов, реализованная на принципах децентрализованных добычи, хранения и доступа к данным.

Денис aka Robastik

Автор статей Как сделать карту цен в Excel без макросов и VBA и Бот или не бот — вот в чём вопрос


Жду линейного развития и интересных библиотек

Data Mining не просто интересная тема, она напрямую связана с моей профессией, я Machine Learning Engineer. Помимо прочего, Data Mining открывает мне возможность участвовать в DS-соревнованиях. Плюс какая ещё профессия позволит убить кучу времени на тюнинг гиперпараметров? В выходные, ночью и абсолютно бесплатно :)

Направление будет развиваться, на мой взгляд, линейно. Вряд ли в ближайшее время изобретут новый AlexNet или BERT. Со времени появления первого прошло 10 лет, и принципиально нового вроде ничего не появилось. Так что я от будущего больше жду кучу новых интересных библиотек.

Вячеслав aka Slivka_83

Автор статьи Evidently, или Как пасти модели в проде и двух туториалов: по ClearML и Dagster


И в золотом стандарте найдётся что улучшить

Для меня эта тематика — неотъемлемая часть изучения предметной области конкретной задачи. Я смотрю на Data Mining не как на техническую манипуляцию данными, а как на один из кубиков в построении физической и математической модели решаемой задачи. По сути, это один из двух каналов коммуникации с реальным миром: Data Mining даёт информацию внутрь DS, Data Presentation позволяет выводить результаты работы во внешний мир.

Чтобы видеть в данных важные для решения задачи вещи, ставить правильные вопросы и понимать, где на них можно получить ответы, мало технических навыков по обработке данных, нужна широта познаний. Часто нужный ответ прячется в смежной области.

Если говорить про технику, то тут есть что улучшать по производительности и удобству работы. Даже в библиотеках, которые десятилетиями считали «золотым стандартом», нашлось что радикально улучшить. Главное — внимательно и вдумчиво поглядеть:

Number Parsing at a Gigabyte per Second, Parsing Gigabytes of JSON per Second.

Возможно, что-то из области ML может в будущем всё полностью или частично изменить, но я немного скептичен: помощь в обработке — скорее да, самостоятельная генерация хотя бы скелета решения — едва ли.

Илья Шутов aka i_shutov

Автор статей Jira, Jirа! Повернись к лесу задом, ко мне передом и Важно ли DS аналитику знать про software development


Потоковая обработка всё упростит

Data Mining занимает меня интересными и нетривиальными задачами. Мне интересно находить решения задач, которые имеют свою специфику в данных. Интересно находить тонкую нить для шаблонизации решения, то есть создать методологию, инструменты для того, чтобы Data Mining стал доступнее для всех. Задачи Data Mining дают мне возможность чувствовать себя золотоискателем и ощущать некую эйфорию, когда удаётся найти полезную информацию. Когда находят новые месторождения полезных ископаемых, в большинстве случаев начинается развитие региона — с точки зрения инфраструктуры, социальной сферы, предпринимательства, экономики и прочего. Так и Data Mining при обнаружении «клада» полезной информации даёт возможность развиваться в разных направлениях.

Со временем будут развиваться методологии и инструменты для решения задач Data Mining, чтобы сделать направление доступнее, снизить порог входа по компетенциям. А затем будут усложняться алгоритмы, процессы, чтобы сделать Data Mining эффективнее.

Думаю, в ближайшее время появятся инструменты потоковой обработки данных с применением методов машинного обучения, которые смогут значительно упростить задачи Data Mining. Батч-обработка, конечно же, останется, но ожидаю, что значительный скачок в развитии будет именно в streaming processing.

Евгений Н aka @newnew94

Автор гайда в двух частях Как организовать потоковую обработку данных. Часть 1 и Часть 2


Данные — не новая нефть: нефть так не берегут

«Данные — это новая нефть!» — эту цитату про важность сбора и обработки больших данных я услышала года три назад. Но сравнение Big Data с природными ресурсами, по моему мнению, не самое удачное: природные ресурсы так не берегут.

Я считаю, что данные — это обратная связь: от покупателей, пациентов, инвесторов, датчиков и прочих. Они, сами того не зная, оставляют цифровой след, который изучают исследователи данных, чтобы дать клиентам то, что им нужно. Или во многих случаях — навязать то, что не нужно. 

Надеюсь, в будущем Data Mining и Data Science позволят оптимизировать процессы так, что клиенты будут получать то, что хотят, — и бизнесу это будет выгодно. Сейчас такая гармония — редкость.

Валерия Куренкова aka ValeriyaKur

Автор статьи NoRecSys. Машинное обучение — помощник в формировании ассортимента товаров для ретейла


Основные тренды задаёт и будет задавать развитие машинного обучения

Я занимаюсь задачами, связанными с глубоким обучением нейронных сетей. От объёма и качества данных зависит, сможешь ли ты решить поставленную задачу. Зачастую данные не лежат на поверхности, их нужно извлечь, иногда даже сгенерировать с помощью нейронных сетей. Например, я это делаю и с помощью машинного перевода. Использование глубокого обучения в поиске информации даёт почти неограниченные возможности в Data Mining и позволяет найти информацию, которую обычным поиском не найти вовсе.

Основные тренды в данном направлении задаёт как раз развитие машинного обучения. Поэтому эти направления будут развиваться синхронно и очень стремительно. Думаю, в ближайшее время может появиться большое количество синтетических данных: синтетических фотографий, синтетических роликов, синтетических аудиоданных, синтетических текстов и так далее. Того, что можно нагенерировать почти в неограниченном количестве.

Михаил Утробин aka UtrobinMV

Профиль. Знает, Как создать переводчик, который переводит лучше, чем Google Translate.


А кто же победил? Чествуем лучшего мага Data Mining

Мы так увлеклись знакомством с участниками и их рассуждениями о будущем отрасли, что забыли о самом главном. Кто создал лучший, по мнению Хабра, текст в сезоне? Что это за текст? И что его автор думает о дата-майнинге? 

Представляем победителя сезона — Давид Дале aka cointegrated. А вот его пост про первый нейросетевой переводчик для эрзянского языка. Слово триумфатору:

Термин Data Mining мне не нравится: общепринятого узкого смысла у него не сложилось, а в широком смысле так можно обозвать всё что угодно, если оно хоть как-то связано с данными. То есть это не одна тема, а огромный букет разных тем.

«Датамайнинговость» моей статьи заключается в том, что тексты, написанные разными людьми для каких-то различных целей, можно собрать и переиспользовать для новой цели — создания машинного переводчика для языка.

На что способен Data Mining и какие у него возможности? Сильный искусственный интеллект, сингулярность, порабощение человечества. Ну или если не выпендриваться, то автоматизация простых интеллектуальных задач типа перевода текстов или поиска ответов на несложные вопросы.

Анализ данных — это набор инструментов, сами по себе они никак мир не меняют. Но люди с их помощью могут творить и большое зло, и большое добро.

Методы распознавания лиц в 2022 году мне кажутся скорее ведущими к злу, ибо государство их активно пытается применять для слежки за гражданами.

Машинный перевод тоже можно использовать в плохих целях, но сейчас он скорее помогает людям распространять знания и лучше чувствовать и понимать друг друга, и поэтому мне хочется верить, что моя работа послужит благим целям.

Давид Дале aka cointegrated

Разработчик / Аналитик / Data Scientist / NLPшник / Победитель сезона Data Mining


Фидбэк от эксперта SM Lab

Итак, авторы нашего сезона написали много первоклассных материалов. Может, больше не осталось тем, которые можно и нужно раскрыть? А хаб можно архивировать до лучших времён? Чтобы развеять эти страхи, мы поговорили с куратором хаба Эдуардом Ильясовым, Data Science Team Lead в SM Lab. Он рассказал, какие темы сейчас наиболее востребованы, какие по-прежнему слабо представлены на Хабре и какие выводы можно сделать по итогам сезона.

В нашей работе особенно востребованы материалы на тему персонализации данных,    Markdown Optimization и прогнозирования продаж товаров с низкой частотой покупок. Например, одежды или обуви. Сейчас мы ищем специалистов, Data / ML Engineer, которые усилят наши команды data-продуктов.

Хотелось бы видеть на Хабре больше постов этой тематики. Сейчас мы добываем информацию в основном из научных статей, книг, тематических блогов. Стараемся посещать конференции профильных специалистов, тематические курсы.

В материалах сезона понравилась глубокая проработка темы: начиная с введения в проблематику, описания источников и способов получения данных и заканчивая созданием моделей. Разнообразие охваченных областей тоже впечатлило: потоковая обработка данных, CV, NLP. Единственное, чего явно не хватает некоторым статьям, — это прикладная часть.

Эдуард Ильясов

Data Science Team Lead в SM Lab


Итоги

Теперь вы знаете, чем интересен Data Mining, почему он так важен сейчас и будет ещё важнее в будущем. У вас под рукой отличная библиотека крутых текстов об этом направлении. Изучайте материалы нашего хаба, проникайтесь магией дата-оккультизма. А если у вас уже есть наработки в этой сфере и желание поделиться кейсами, идеями, опытом, пишите тексты на Хабр. Выберите, например, одну из актуальных тем, которых не хватило на хабе эксперту SM Lab.

Источник: https://habr.com/ru/article/700656/


Интересные статьи

Интересные статьи

С чего началась наша компания? В первую очередь, конечно, с людей и с идеи. Как это обычно бывает, правильные люди абсолютно случайно познакомились друг с другом, и вот я здесь, сижу и пишу этот пост ...
Привет! Мы продолжаем публиковать видео с конференции BeeTech 2.0.  Поток Engineering тут, Management тут. В этой статье я поделюсь выступлениями спикеров потока Big Data. Вот ссылка на весь...
Подводим итоги и коротко рассказываем о том, что происходило на Хабр Фрилансе в 2019 году. Кого искали чаще всего и кого находили? На какой заказ больше всего откликались? Сколько откликов остави...
В начале прошлого года я рассказывал про проект Bonsai — движок для создания семейного вики и фотоальбома с открытым исходным кодом. С тех пор проект планомерно развивался. За год сделано несколь...
Такие специфические машины в коллекции DataArt пока составляют небольшой раздел. Их создавали для работы в суровых условиях или сферах, требующих повышенной надежности, к ним же относят ЭВМ, ...