Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!
Привет, Хабр! Мы в Х5 очень любим данные и умеем с ними обращаться. Недавно мы провели «Цифровой четверг» — дискуссию с представителями ИТ-компаний, облачных провайдеров и телекомов.
На встрече обсудили data-driven подход: кейсы, «грабли» и базовые моменты, о которых стоит знать. Решили поделиться ключевыми мыслями по её итогам.
Что считать data-driven подходом
Прежде чем перейти к разговору о том, какие у компаний могут возникнуть сложности, кратко разберём, что вообще стоит понимать под data-driven подходом. В общем случае он подразумевает принятие решений с упором на аналитику, а не только интуицию и личный опыт менеджеров. Методологию используют в разработке, UX, рекламе, ритейле — в тех областях, где даже незначительные решения могут повлиять на выручку компании.
Вообще изучать, что и как покупают, ритейлеры начали ещё в XIX веке, но сам термин data-driven был популяризован в 1990-х. Мы в X5 Group используем этот подход для наполнения полок в магазинах, экспериментов, скидок и так далее. Однако он не чужд и небольшим предприятиям, когда владелец локального ресторанчика, проанализировав спрос на сезонное блюдо, решает сделать его частью регулярного меню.
В экспертном сообществе пока нет единого мнения о том, какую организацию стоит называть data-driven. Одни утверждают, что она должна использовать специализированные инструменты business intelligence (BI). Другие, что методы сбора и обработки данных не имеют значения и для этих целей подойдёт даже Excel. Более того, если руководитель записывает данные в блокнот, ведёт расчёты на бумаге и использует их для принятия решений — это тоже data-driven подход.
Плюрализм мнений и отсутствие устоявшихся лучших практик ведёт к тому, что многие организации допускают ошибки, пытаясь стать data-driven. Далее расскажу, на какие «грабли» наступили мы в X5 Group и к чему пришли в итоге.
Почему подход может не работать
Есть мнение, что для перехода на методологию достаточно начать собирать данные — например, о продажах. Но конечно, организовать корпоративный data lake недостаточно. Необходимо следить за качеством данных на входе. Если этого не делать, в таком «озере» быстро завязнут последующие аналитические процессы. Поэтому помимо построения моделей машинного обучения, анализа и визуализации данных, до 80% времени специалистов по данным уходит на очистку данных и их подготовку — форматирование и дедупликацию.
В этом контексте важно отметить, что не стоит ориентироваться исключительно на данные, собираемые внутри компании. Информация о конкурентах, партнёрах или франчайзи, открытая статистика аналитических агентств — всё это помогает построить более полную картину рынка и бизнеса. Если эту информацию игнорировать, есть вероятность, что принимаемые решения будут оторваны от реального мира и data-driven подход не сработает.
Ещё методология может давать сбой из-за человеческого фактора. С данными, нейросетями и алгоритмами работают люди, и в некоторых случаях «бутылочное горлышко» образуется на их стороне. Мы в X5 Group столкнулись с этой проблемой, когда внедряли систему детекции очередей. Сама по себе задача по подсчёту людей у кассы достаточно тривиальная, и её уже много раз разбирали на Хабре. Сложности возникают, если необходимо срочно открыть новую кассу в ситуации, когда все сотрудники заняты выкладкой товара.
Похожая проблема проявилась, когда мы разрабатывали систему компьютерного зрения для определения отсутствующих на полках товаров. Во время тестовых запусков она работала отлично и уведомляла администратора, что позиция закончилась. Но внедрение технологии на масштабе не принесло ощутимых результатов. Дело в том, что на выкладку товара требуется время — сотрудники магазина не могут сделать это моментально. Кроме того, директора знают, как часто заканчивается тот или иной продукт, поэтому уведомления от интеллектуальной системы не давали значительного выигрыша по времени.
С аналогичными кейсами сталкивались и другие участники «Цифрового четверга». Кирилл Меньшов, член правления ПАО «Ростелеком», привел следующий пример:
«Мы, как и любой телеком, прогнозируем отток, чтобы работать с уходящими абонентами. Мы также прогнозируем и увольнение своих сотрудников, но здесь не имеем больших результатов. С одной стороны, здорово, что вы можете за три месяца предсказать, что сотрудник от вас уходит.
С другой стороны, его руководитель, скорее всего, уже об этом знает, и все действия, которые он мог бы предпринять, он и так предпримет. Если посмотреть A/B-тестирование с алгоритмом и без него — значимого результата нет».
— Кирилл Меньшов, член правления ПАО «Ростелеком».
У себя в компании мы строим культуру data-driven уже три года. За это время были как удачные, так и неудачные проекты, и мы отточили необходимый инструментарий. Поделюсь выводами, к которым пришли за это время.
С чего можно начать
Отталкивайтесь от кейсов. Первым делом бизнесу необходимо определить задачу, которую он планирует решить с помощью данных. Уже после этого можно переходить к выбору метрик и сбору информации. Если сделать наоборот, то компания рискует попасть в ловушку — начать «подгонять» имеющиеся данные под желаемый результат. Определившись с кейсом, также важно правильно выбрать технологическую базу. Например, не стоит решать задачу с помощью нейросетей, если есть другие, менее сложные и затратные, способы. В лучшем случае компания получит неоптимальное решение, в худшем — потеряет деньги.
В качестве примера приведу всё тот же мониторинг количества товаров. Об отсутствии продукта на полке можно судить, просто анализируя чеки. Когда условные бананы есть в наличии, их «пробивают» на кассах примерно раз в 15 минут. Если временной промежуток увеличился, то товар кончился (или что-то ещё пошло не по плану). Точность такого метода ниже, чем у видеоаналитики, однако он значительно выгоднее с точки зрения окупаемости — не нужно устанавливать дополнительные камеры в 18 тыс. магазинов.
Используйте открытые данные. Компания, которая не генерирует большие объёмы данных, тоже может быть data-driven. Достаточно использовать информацию в открытом доступе. Отчёты агентств, разного рода геоаналитика — этого хватит, чтобы начать принимать взвешенные решения о векторе развития. Эту рекомендацию поддержали участники нашей беседы:
«Если маленький бизнес хочет открыть второй магазинчик, каким образом он это делает? Или просто находит помещение, или приходит в компанию, у которой есть достаточная геоаналитика с проходимостью, покрытием, населением, и на её основе принимает решение открыть магазинчик. Для этого не нужны никакие собственные данные».
— Кирилл Меньшов, член правления ПАО «Ростелеком».
Развивайте культуру data-driven. Переход на новую методологию работы подразумевает не только технологическую трансформацию, но и изменение бизнес-модели компании. Сам переход стоит проводить постепенно, заручившись поддержкой тех, кто данные генерирует и использует. Например, на внедрение системы автозаказа в магазинах «Перекресток» [когда алгоритм самостоятельно закупает товарные позиции] у нас ушло девять месяцев. Мы разделили торговые точки на три группы. Первая сразу перешла на новый алгоритм. Директора второй группы могли править предложенные системой значения в строгих пределах. В третьей группе они имели право вносить любые корректировки. Мы постепенно переводили магазины из третьей категории во вторую, а оттуда — в первую. За это время мы выявили недостатки в работе алгоритма и поправили их, ориентируясь на решения, которые принимало руководство торговых точек.
Если говорить про X5 Group в целом, то с инструментами data-driven ежедневно работает три-четыре тысячи человек — среди них рядовые сотрудники торговой сети. Для дальнейшего развития этих инструментов важно привлекать новые кадры и обучать уже имеющихся специалистов. Хорошие базовые знания по обработке данных сегодня могут дать бесплатные профильные курсы — например, на Coursera. Однако мы разрабатываем и собственные образовательные направления — в прошлом году запустили академию по теме data science. Там сотрудники оттачивают компетенции в сфере обработки данных. Мы планируем расширить спектр программ, доступных для обучения.