Чему учат на курсах Data Science? Примеры задач для аналитика на фармрынке

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

В заметке приведены некоторые актуальные аналитические задачи индустрии. С помощью этого списка вы можете оценить насколько вам может быть интересно учиться на DA/DS, а если у вас уже есть опыт, то обогатите свои знания задачами из фармацевтической отрасли.

В прошлом учебном году я был ментором выпускных проектов на курсах в НИУ ВШЭ. Программы нацелены на подготовку специалистов для решения практических задач анализа данных. По договоренности с компанией Matchflow, которая предоставляет IT-услуги на фармацевтическом рынке и имеет доступ к большому количеству данных о заказах и продажах товаров из ассортимента аптек, я предложил студентам список тем.

Задачи для курса «Специалист по Data Science»

  1. Классификация названий лекарственных средств.

    У компании есть большая база данных с короткими строками (десятки миллионов) - названиями лекарственных средств, того как они записаны в чеках аптек, складских системах, списках поставщиков и т.п. Предположим, что существует фиксированный список классов (десятки тысяч), каждый из которых представляет собой конкретный товар (SKU). Необходимо построить модель, которая будет определять класс по строке-названию лекарства. Для студентов, которые чувствуют себя достаточно уверенно, предлагалось усложнить задачу. Можно расширить списки названий и классов до всего ассортимента аптек, который помимо лекарственных средств часто включает парафармацию, продукты здорового питания и прочее.

  2. Сопоставление названий товаров из ассортимента аптек.

    С точки зрения бизнеса задача может звучать так: есть список товаров аптеки с одной стороны и списки всех поставщиков, готовых работать с этой аптекой с другой. Нужно для каждой строчки из списка аптеки подобрать подходящие товары из списков поставщиков. Если остается время: для моделей с возможностью регулировки соотношения Precision-Recall выбрать оптимальные значения для 2 случаев: полностью автоматического заказа и заказа с последующей валидацией списка заказчиком.

  3. Обнаружение неучтенных классов в задаче сопоставления названий товаров из ассортимента аптек.

    Если для решения задачи сопоставления была выбрана промежуточная классификация, то стоит учитывать, что состав классов постоянно изменяется. Новые товары приходят на рынок, а старые уходят. Если уход старых не сильно влияет на качество, то появление новых драматически его снижает. Нужно найти решение, которое поможет отслеживать появление новых товаров на рынке.

  4. Предсказание продаж товаров из ассортимента аптек.

    Имея историю продаж товаров аптеки, хотим знать какие продажи будут в следующем периоде по каждому товару в отдельности. Можно использовать дополнительные данные о товарах (их группе, сезонности и т.п.) а также данные других аптек. Сложность задачи в том, что в масштабах одной аптеки далеко не все товары продаются достаточно часто, чтобы сделать уверенный прогноз. Кроме построения/обучения модели нужно объяснить выбранные метрики.

Задачи для курса «Аналитик данных»

  1. Поиск комплиментов и субститутов на основе чековых данных аптек.

    Для каждого препарата хотим получить список замен и допродаж, чтобы показывать эти подсказки фармацевту. Нужно проанализировать чеки (десятки-сотни миллионов) и получить модель построения таких списков.

  2. Построение модели предсказания продаж товаров из ассортимента аптек на коротком обучающем сете.

    В отличие от обычного предсказания продаж, здесь предлагается сделать аналитическую модель предсказания продаж, которую можно использовать для холодного старта - в самом начале сотрудничества с аптекой. Мы по-прежнему хотим знать какие продажи будут у конкретной аптеки в следующем периоде, но у нас пока мало данных, чтобы использовать сложные модели.

  3. Аналитическое uplift-моделирование продвижения товаров из ассортимента аптек.

    Аптеки и производители, заинтересованные в применении маркетинговых активностей (например скидок, акций "2+1"), хотят получить предварительную оценку эффективности таких вложений и оценить результат. Предлагается построить модель оптимизации выбора подходящих товаров и типа активности при заданном бюджете.

Все предложенные задачи практической направленности - это задачи, которые сформулированы самим рынком. Студенты имеют возможность поработать с реальными данными в комфортных условиях при поддержке опытных специалистов. Формулировки могут быть дополнены или изменены по академическим предпочтениям студентов.
Результаты работы нужно представить комиссии в виде текста и презентации для защиты.

Ожидается, что текст работы будет содержать:

  • Введение (описание задачи, актуальность, поставленные задачи, методы и сроки)

  • Обзор материалов

  • Модель и оценка (лучше несколько вариантов)

  • Заключение (что получилось, достигнуты ли цели, перспективы работы и возможные улучшения)

    В сумме 10-20 страниц текста и 5-10 слайдов презентации.

Все мои студенты успешно справились со своими проектами, а самой популярной оказалась классическая задача предсказания продаж.

Если вам интересно научиться решать подобные задачи или сами хотите стать ментором, приходите в Вышку на программу переподготовки.

Если вам интересно посмотреть как эти задачи были решены на практике - приходите работать в Matchflow.

Источник: https://habr.com/ru/articles/759252/


Интересные статьи

Интересные статьи

Опытный и талантливый сотрудник — носитель знаний и опыта. На него полагаются коллеги, он выполняет в десять раз больше работы, чем джун. Казалось бы, руководство должно молиться на такого разрабо...
В этом посте будут описаны некоторые из решений, задействованных в воссоздании оттенков на фотографиях, то есть степени яркости или тёмности каждой части фото. Мы привыкли считать, что фотографии...
Год назад моя компания впервые попросила меня провести собеседование для фронтендера. Тогда я и придумал эту задачу на свою злобу дня. Задачка простая, на базовые знания, но, как оказалось, в ней можн...
Обновилась линейка Intel Xeon E — семейство серверных процессоров начального уровня для односокетных платформ, эквивалентная моделям Xeon E3 в «дореформенной» классификации. Как и предшественники,...
Содержание Основные различия Reproducibility crisis Система контроля версий Data Version Control Полезные ссылки Введение Несмотря на всю пользу DVC, об этом инструменте знает ...