Миссия выполнима. Подход к кластеризации клиентов по типам товарных категорий

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

Привет, меня зовут Сергей Сергеев, я ведущий исследователь данных в Утконос Онлайн. В этой статье я хочу описать подход к кластеризации клиентов по типам товарных категорий, который давал бы хорошее представление об аудитории Утконоса. Его можно проводить разными способами, т.к. существует множество методов кластеризации. Однако данный подход дает хорошие интерпретируемые результаты, а также в нем используются некоторые понятия из теории информации, которые могут быть полезны сами по себе. Кажется, что на сегодняшний день представление о теории вероятности и статистики есть не только у тех, кто работает с данными, но и у бизнес-заказчиков и менеджеров. А вот теория информации известна гораздо меньше, хотя многие ее методы дают полезные и понятные результаты, которые могут быть ясно донесены до бизнеса. О них я и расскажу далее на примере задачи выявления миссий клиентов.

Описание задачи

Возникла необходимость разбить пользователей на сегменты, характеризующие их мотивацию покупок в Утконосе. Т.е. определить миссии, с которыми клиенты приходят к нам. Эти миссии в дальнейшем могут использоваться для анализа профиля клиента, персонализации коммуникации, для разработки новых маркетинговых продуктов, как признаки в других ML-задачах.

Чтобы понять, решена ли задача, нужно понять, чего мы ждем от ее решения, а значит формализовать понятие миссии. Для кластеризации используются данные о покупках в категориях, а не о товарах. Это позволяет уменьшить шум, получив более обобщенное представление о поведении клиентов. Кажется, что в этом случае нецелесообразно рассматривать в качестве миссии категории, где клиент чаще покупает или больше тратит. Например, приходя за бытовой химией и покупая одну большую упаковку стирального порошка, клиент может заодно купить помидоры, огурцы и картошку, но не они мотивируют эту покупку. В то же время товары в одних категориях могут стоить в среднем гораздо дороже, чем в остальных, поэтому сумма трат может быть сильно смещена в их сторону и не отражать истинного положения вещей.

Миссией можно назвать такой набор категорий, который мотивирует клиента совершать покупку. Т.е. покупка в одной из таких категорий будет скорее указывать на этого клиента, чем на кого-либо еще. Например, мы знаем, что одного человека на покупку в Утконосе мотивируют детские товары, а другого — корм для животных. Тогда в случае покупки подгузников мы с гораздо большей долей уверенности сможем сказать, что покупку совершил первый клиент. Значит, найдя группы клиентов, которые лучше всего определяются теми или иными категориями, мы найдем и миссии этих клиентов.

Немного о теории информации

Почему в примере выше покупка подгузников меняла наше суждение о клиенте? Смогли бы мы сделать какие-то выводы о клиентах, если бы узнали, что купили яблоки? Интуитивно кажется, что яблоки мог купить и тот, и другой клиент, т.е. покупка яблок клиента никак не характеризует, ничего о нем сообщает, следовательно, никак не определяет его сегмент. Факт покупки подгузников, напротив, — обычная ситуация для одного клиента и скорее исключение для другого.

Информация, энтропия, перекрестная энтропия — все это важные, самостоятельные понятия, в которых зачастую уместно и естественно формулировать задачи и интерпретировать результаты. И эта задача — одна из таких, потому что в конечном итоге мы хотим найти категории, покупки в которых сообщают о группе клиентов больше всего информации, т.е. лучше всего характеризуют их. А значит, определяют их мотивацию и миссию покупки.

Для этого нужно понять, как работать с информацией, как ее измерять, какие у нее свойства. Информация измеряется битами — двоичными числами, которые могут принимать, соответственно, два значения: 0 и 1. Т.е., если какой-то процесс характеризуется двумя возможными равноценными состояниями, определив его текущее состояние мы получим 1 бит информации.

Например, монетка может выпасть одной из двух сторон с равной вероятностью, значит, наблюдение результата броска дает нам 1 бит информации. Две монеты характеризуются уже четырьмя состояниями — ОО, ОР, РО, РР, для записи которых можно использовать  00, 01, 10, 11, т.е. два бита информации. Аналогично, выпадение трех честных монет с восемью возможными состояниями даст три бита информации. Можно заметить, что 2, 4 и 8 равновероятным состояниям соответствуют 1, 2, 3 бита информации. Т.е. по крайней мере для равновероятных

Источник: https://habr.com/ru/company/utkonos/blog/650789/


Интересные статьи

Интересные статьи

Глядя на бескрайнюю россыпь звезд в ночном небе, почти любой человек хоть раз задавался вопросом: интересно, мы одни во вселенной? Тема контакта с внеземным разумом давно стала классической для научно...
В современной корпоративной и государственной жизни невозможно избежать встречи с автоматизированными системами. Каждый из нас является пользователем как минимум 2-3 из н...
«Вы технологически отстаёте. Ваши вендоры застряли в прошлом. Клиенты считают вас устаревшими. Мы модные, мы классные, у нас все последние технологии — и боженька моя пре...
Майкл Сайбл — сооснователь (в 25 лет) стартапов Justin.tv/Twitch (капитализация $15 млрд) и Socialcam, член правления Reddit. Ex-CEO Y Combinator. Меня зовут Майкл Сайбл и я являюс...
Чем отличается продвижение продуктов и услуг в Рунете и США, к чему готовиться при выходе на новый рынок и какие ожидания сформировать? На эти вопросы я постараюсь ответи...