Кейс ДОМ.РФ: как повысить конверсию клиентов для рефинансирования ипотеки с помощью машинного обучения

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!

Привет, Хабр!

В этой статье речь пойдет о больших данных в финансовых сервисах, а точнее, о том, насколько легко – или сложно – повысить конверсию клиентов при проведении маркетинговых кампаний по специфичным банковским продуктам, с помощью BigData и умных моделей. Другими словами, как, основываясь на наших знаниях о клиентах, выбрать именно тех из них, для которых предлагаемые продукты будут наиболее интересны.

Итак, в чем собственно состоит наш кейс? К нам обратился отдел маркетинга с задачей организации коммуникаций с клиентом посредством рассылки SMS с предложением рефинансирования ипотеки. Предполагалось рассылать предложения клиентам, которые ранее оставляли у нас заявку на ипотечный кредит (и она была одобрена), но оформление кредита по каким-то причинам не произошло. При этом необходимо было сегментировать клиентов, выделив в отдельную выборку высокоприоритетных, тем самым обеспечив экономию и высокий уровень конверсии.

Обычно продвижение продуктов происходит за счет коммуникации с клиентом через различные каналы: SMS, Push, звонки и многие другие. Формирование сегментов для продвижения сейчас решается с помощью машинного обучения. В рамках этой задачи мы рассматриваем оптимизацию рассылки SMS с предложением рефинансирования ипотеки.

Существует 3 подхода для решения задачи:

  • Look-alike-модель оценивает вероятность того, что клиент выполнит целевое действие. В качестве обучающей выборки используются известные позитивные объекты (например, пользователи, установившие приложение) и случайные негативные объекты (сэмплирование небольшой подвыборки из всех остальных клиентов, у кого это приложение не было установлено). Модель будет пытаться искать клиентов, похожих на тех, кто совершил целевое действие;

  • Response-модель оценивает вероятность того, что клиент выполнит целевое действие при условии коммуникации. В этом случае обучающей выборкой являются данные, собранные после некоторого взаимодействия с клиентами. В отличии от первого подхода, в нашем распоряжении имеются реальные позитивные и негативные наблюдения (например, клиент оформил кредитную карту или отказался);

  • Uplift-модель оценивает чистый эффект от коммуникации, пытаясь выбрать тех клиентов, которые совершат целевое действие только при нашем взаимодействии. Модель оценивает разницу в поведении клиента при наличии воздействия и при его отсутствии.

В нашем случае у нас были исторические данные, реальные позитивные и негативные наблюдения. Таким образом между look-alike и response моделями мы выбрали response. Для uplift-модели нужен особый дизайн эксперимента изначально (при сборе обучающей выборки), а такими данными мы не располагали, поэтому от uplift-моделирования мы отказались.

В качестве обучающей выборки было взято множество записей X, описывающее параметры взаимодействия с клиентами по вопросу предложения рефинансирования, и множество записей Y с результатами этого взаимодействия:

В итоге был разработан алгоритм определения вероятности положительного отклика на взаимодействие на первом этапе воронки по набору параметров CRM-кампании. Положительным откликом положили считать переход по ссылке внутри SMS. В качестве бизнес метрики выступала конверсия.

Поскольку выборка была сильно не сбалансирована относительно таргета (процент положительного отклика 1,8%), в качестве метрики машинного обучения была выбрана F-мера.

В качестве источников данных брались стандартные данные клиента: возраст, пол, доход, данные о месте проживания и работе, а также данные кредита: ставка, срок и некоторые другие параметры.

При подготовке датасета было много преобразований:

  • Исправление ошибок. Например, образование техническое и (техническое) по смыслу одно и тоже, или - средне и среднее;

  • Смысловые изменения. В графе семейное положение «не состою в браке», «холост», «не женат», «не замужем» по смыслу одно и тоже, поэтому можно заменить на какое-то одно значение, например, «не замужем». Статус места работы «госпредприятие» и «государственное предприятие» по смыслу одно и тоже;

  • Заполнение пропусков;

  • Удаление признаков с большим количеством пропусков.

Из множества оригинальных признаков путем их нелинейных преобразований было получено расширенное признаковое пространство.

Из алгоритмов для решения задачи мы выбрали Catboost из-за хорошего встроенного энкодера категориальных признаков. Отбор признаков производился на кросс-валидации с помощью permutation importance. Оптимизация параметров производилась с помощью пакета Hyperopt. Финальное качество проверялось на отложенной тестовой выборке. F-мера на тесте составила ~0.11 (что мало, но ожидаемо из-за сильно ограниченного набора данных).

Графики logloss и F-меры:

На продакшн модель была запущена в виде A/B теста: сравнивалось взаимодействие с полностью случайными клиентами, а также с работой других внешних и внутренних моделей. Первые результаты показали, что модель даёт конверсию в 2,5 раза больше, чем ранее применяемые методы. Выше заинтересованность клиента не только выслушать предложение о рефинансировании, но и приобрести его.

В дальнейшем мы планируем расширять пул источников данных, чтобы затащить в модель больше параметров для обучения и повысить степень влияния на целевую бизнес-метрику.

Источник: https://habr.com/ru/company/domrf/blog/574534/


Интересные статьи

Интересные статьи

Программа GNU Image Manipulation Program (GIMP) – моё решение проблемы редактирования изображений. Набор инструментов у этого редактора очень мощный и удобный, за исключением инструме...
Вынужденная самоизоляция стимулировала многих из нас вспомнить о своих pet-проектах или просто найти себе хобби. Кто-то увлекается радиосвязью, кто-то разрабатывает корпуса для Raspber...
Надоели перегруженные и сложные адаптеры в вашем проекте, напоминающие картинку ниже? Каждый раз, при добавлении нового типа ячейки хочется переписать адаптер для RecyclerView, чтобы ...
Сравнивать CRM системы – дело неблагодарное. Очень уж сильно они отличаются в целях создания, реализации, в деталях.
Рис. 1. – Внешний вид 4-х ступенчатого термоакустического двигателя с бегущей волной В предыдущих статьях я писал о том, как построить двигатель Стирлинга без поршней, то есть о том, как пос...