Привет, Хабр! Меня зовут Ксюша Блажевич, я руководитель направления data science и product-owner в Леруа Мерлен. 13 апреля в 19:00 МСК мы совместно с Yandex.Cloud огранизуем митап о платформах данных, на котором обсудим c Авито и Райффайзенбанком методы и инструменты скоринга входных данных, их агрегации и создании единой системы.
Под катом расписание митапа и анонсы докладов: о релизе нового функционала Yandex Object Storage, методах ускорения time to market до 1 дня, применении lightGBM при приемке товара на складах и оптимизации размещения банкоматов с помощью JupyterHub.
Программа
19:00 - 19:20 МСК
Создание Data Platform в Леруа Мерлен
Дмитрий Ибрагимов, SRE Леруа Мерлен
Расскажет об архитектуре Data Platform Леруа Мерлен, а также сделает обзор новинок и инструментов для работы с данными и их обработки. Детально обсудим:
способы и инструменты интеграции нереляционных источников данных (Kafka/Nifi/Object Storage/Spark);
потоковую обработку CDC на платформе Apache Flink;
снижение порога вхождения для работы с данными с помощью Apache Superset.
19:20 - 19:40 МСК
Данные в S3: поддержка S3 storage в ClickHouse, а также как выполнить select-запрос к файлу, не имея никакой СУБД
Всеволод Грабельников, архитектор Yandex.Cloud
Поделится тем, как команда подошла к решению задачи поддержки хранения и обработки данных в СУБД ClickHouse в S3, а также впервые расскажут о новом функционале по поддержке select-запросов для parquet/csv файлов в S3 (Yandex Object Storage).
19:40 - 20:00 МСК
Витрины данных в Авито и их применение в бизнес-задачах
Илья Салманов, middle engineer юнита DWH
Раскроет тему витрин данных и того, как с их помощью упростить жизнь аналитиков и дата-инженеров, а именно закрыть потребности более 100 дата-специалистов командой из 14 инженеров. Все о том, как Авито:
стандартизировала процесс создания витрин;
поддерживает качество кода и данных в витрине;
строит дерево зависимостей и пересчитывает витрины (парсинг кода, потоки, SLA витрины);
ускоряет time to market для витрин (до 1 дня).
20:00 - 20:20 МСК
От анализа данных до внедрения в прод: как инфраструктура помогает обучать и внедрять ML-модели на примере реальных бизнес-кейсов
Михаил Сеткин, руководитель направления по развитию прикладной платформы Data Lake Райффайзенбанк
Райффайзенбанк расскажет о своей платформе Data Lake и поделится, как:
произвести моделирование тендеров для закупок;
обработать гипотезу по оптимизации расстановки мест для банкоматов с помощью JupyterHub на основе данных транзакционной активности клиентов, исторических данных с банкоматов, а также данных Open Street Map;
создать чатбот, научиться распознавать паспорта, 2-НДФЛ и отчеты об оценке залогов для ускоренного ввода данных в систему с помощью виртуальной машины в виртуальном частном облаке VMWare, по cenb такой IAAS, есть шаблоны с CPU/GPU;
выработать два паттерна вывода в prod: модель как бэк в веб-сервисе (автоматическая классификация текста жалоб клиентов); модель как UDF-функция в режиме пакетной обработки на Spark (предсказание спроса на наличные в банкоматах).
20:20 - 20:40 МСК
Светофор 2.0: страх и ненависть на пути от экселя к градиентному бустингу
Ксения Блажевич, руководитель продукта Леруа Мерлен
Я поделюсь опытом того, как мы обучили модель выявлять проблемные поставки от поставщиков на складах. В деталях расскажу о сложностях, с которыми столкнулась наша команда во время разработки и внедрения ML-продукта в компании с большим количеством оффлайн процессов.
На примере продукта «Светофор» покажу, как в дата-инфраструктуру компании вписался ставший "классическим" стек для продуктивизации ML-решений - Kubernetes, Airflow, DVC и собственный model registry на базе S3 и Postgres.
Присоединяйся к нам 13 апреля - регистрируйся на мероприятие по ссылке