ML не в радость: что может провалить проект по внедрению machine learning

Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!

Эксперты направления аналитических решений ГК «КОРУС Консалтинг»
Алена Гайбатова и Екатерина Степанова.

Зарабатывать и экономить с помощью данных хотят все: применение методов ML даже на одном проекте помогает добиться существенной экономии или даже роста выручки. Но чтобы почувствовать эффект и не провалить внедрение, нужно учитывать сложности и не допускать менеджерских ошибок. На примере рассказываем, как сделать так, чтобы алгоритмы машинного обучения не ошибались.

Machine learning – всего 5% от ресурсов проекта. Но усложнение логики ML может привести к увеличению сроков внедрения, а неправильное планирование сбора данных – к неточному анализу, который может стать бесполезным и дорогим. Почему так происходит?

Проблема ожиданий

Компания где-то слышала, что нейросеть – это решение всех проблем. При этом качество или объёмы данных оставляют желать лучшего – внедрить модель на таких условиях просто невозможно. К примеру, для накопления данных в ритейле или производстве требуется около года, а если нет необходимого оборудования или часть процессов не оцифрованы, то ещё дольше.

Чтобы избежать недопонимания, рекомендуем договариваться о конкретных результатах с оговоркой на требования для запуска системы, а не о расплывчатой возможности дохода. Подобные иллюзии испытывает не только бизнес, но и сами разработчики. Иногда бизнес-аналитики ожидают завышенное качество работы моделей, опираясь на прочитанное в сложных технических статьях. К сожалению, такие тексты пишут об алгоритмах разработанных на модельных, а не реальных данных.

Поэтому результаты проекта должны быть полезными, легко интерпретируемыми и подтвержденными метриками и экспертами бизнеса.

Ложные предпосылки

Проект внедрения может стать убыточным или затянутым из-за неудачного или неглубокого тестового анализа демоверсии ML-модели. Например, на исторических данных в 2019 году предварительная точность прогнозирования составила 90%. В 2020 же произошли случайные, но высокие скачки в оценке параметров — образовался разрыв c изначальной информацией, и достигнуть желаемого результата теперь просто невозможно.

Проблема решается более тщательной подготовкой и расчётами. Проверяйте выводы демоверсии и учитывайте возможные ухудшения сценариев.

Завышенное доверие к системе

Представьте, вы разработали и сдали в эксплуатацию систему поддержки и принятия решений, например, для прогноза продаж в сфере здравоохранения. Компания даже успела в ней поработать: платформа показывала отличные результаты и точные расчёты. Сотрудники стали понимать, что система работает лучше и быстрее людей, поэтому использовали её решения не глядя. Так появились завышенные ожидания от платформы, и за ее работой перестали следить. Качество внедренной системы в 2020 году из-за пандемии сильно упало и, если бы не подсистема мониторинга, компания могла понести убытки. Без оценки доверия к технологии нет.

Решение: делать подсистему мониторинга текущей оценки качества, работы системы и сотрудников.

Проблема изменений

Достаточно распространённая ситуация: спустя год после внедрения системы анализа бизнес-оценка результатов ее работы изменилась, поменялось качество или природа входных данных. Например, в розничной торговле выросла ставка налогообложения, а система оптимизации ценообразования была настроена на прежние параметры. В результате модель даёт погрешности в расчётах, а значит, торговая сеть сталкивается с убытками.

Проверяйте входные данные на аномалии. Не доверяйте системе полностью – разбирайте и анализируйте отдельные случаи подробнее. Так вы выявите дополнительные инсайты для улучшения результатов модели.

Как минимизировать подобные риски

Научитесь задавать правильные вопросы.

1. Какую проблему решаете? Точно ли болит то, на что жалуются? Сколько стоит решение проблемы?

Ответы на эти вопросы помогут собрать информацию и посчитать value для бизнеса. Так вы сможете понять, к какой точности прогнозирования стоит стремиться. К примеру, если данный параметр близок к 100%, значит, что модель «переобучилась» и доверия к ней нет. Тот же принцип по обратную сторону: точность ниже 50% говорит о том, что модель «недоучилась».

2. В какой процесс встраивается ML? Кто стейкхолдер процесса? Кто несёт ответственность за техническую составляющую системы, а кто – её конечный пользователь?

Важно понимать, для кого вы внедряете платформу. Ведь результат во многом может быть скорректирован из-за новых входных ограничений со стороны заказчика. Например, система прогноза продаж в ритейле должна выдавать разные результаты для категорийного менеджера и отдела закупок.

3. Кто эксперт в предметной области в компании?

Экспертиза – это данные, а они питают ML-продукт. Лучше всего помочь вычленить нужные сведения может тот, кто знает в них каждую точку. Чем больше качественных данных, тем выше вероятность получения желаемой модели и ожидаемого бизнес-результата.

4. Как будет проходить прием результатов?

Это важно, потому что для людей ML – это магия. Когда вы приходите к бизнес-экспертам и говорите с ними об ML, будьте готовы, что их знания в этом вопросе фрагментарны. Иногда им тяжело понять вашу логику, поэтому важно обговорить результаты, понятные бизнесу. Например, какой прирост маржинальности получит компания от реализации модели прогноза оттока. Магию нужно заземлять, уходя от оперирования математическими терминами к бытовым и более понятным, но при этом оставаться факирами и волшебниками.

ML – прекрасный инструмент для оптимизации работы, решения нестандартных проблем и анализа большого объема данных. Важно учитывать множество аспектов для его использования до и после внедрения. Надеемся, что краткий обзор сможет предостеречь от нежелательных ситуаций и сведет к минимуму проблемы от использования ML, чтобы вы могли насладиться дополнительными преимуществами технологии.

Источник: https://habr.com/ru/post/549136/

Вернуться к списку

Интересные статьи

В поисках инженерной культуры: Arzamas и DataArt запустили совместный исторический проект

Просветительский проект Arzamas и компания DataArt запустили онлайн-курс о роли ЭВМ и кибернетики в искусстве и массовой культуре в СССР. Проект построен как экскурсия по...

Момент, когда проектная документация нужна

Время идет, планета крутится, системы растут и развиваются, а я продолжаю слышать в кругах аналитиков сожаление: «Эх, пришел на проект, а тут никакой документации, смотрим в код». Но ...

Поиск родственников через тест ДНК. Часть 1 – Как ДНК может помочь узнать предков?

Я расскажу вам немного о пользе ДНК-тестирования при поиске родственников и своих корней. Постараюсь сделать это достаточно кратко и просто, настолько, насколько это нужно для пониман...

Вижу, значит существую: обзор Deep Learning в Computer Vision (часть 2)

Продолжаем постигать современную магию (компьютерное зрение). Часть 2 не значит, что нужно сначала читать часть 1. Часть 2 значит, что теперь всё серьёзно — мы хотим понять всю мощь нейросетей в ...

Новый фонд для DevOps-проектов от Linux Foundation начался с Jenkins и Spinnaker

На прошлой неделе организация The Linux Foundation во время своего мероприятия Open Source Leadership Summit объявила о создании нового фонда для Open Source-проектов. Очередной независимый и...