Привет сатанисты дата-сайентисты! hh.ru проводит второй ML-чемпионат для всех желающих с призовым фондом 500 000р. Все данные опубликованы на платформе Boosters.
Условия задачи
Пользователи hh.ru ежедневно занимаются поиском работы своей мечты, выбирая вакансии из большого множества предложений со стороны работодателей. В данной задаче участникам предлагается решить задачу sequential рекомендаций, а именно: по последовательности событий внутри пользовательских сессий предсказать следующую вакансию, на которую пользователь откликнется в своей следующей сессии.
Под откликом понимается момент, когда пользователь нажал на кнопку "Откликнуться", после чего работодатель может рассмотреть его кандидатуру.
Данные
train.pq
Данный файл состоит из следующих полей:
* action_dt — момент времени, когда было произведено какое-либо действие;
* user_id — идентификатор пользователя;
* vacancy_id — идентификатор вакансии;
* session_id — сессия поиска: у пользователя может быть больше одной сессии. События происходили в какой-то конкретной сессии;
* action_type — тип события: 1 - отклик, 2 - просмотр (открытие страницы вакансии), 3 - добавление вакансии в избранное.
vacancies.pq
Файл вакансий представляет из себя совокупность полей:
* vacancy_id — идентификатор вакансии
* company.id — идентификатор компании
* name — название вакансии
* description — описание вакансии
* keySkills.keySkill — ключевые навыки, требуемые для вакансии
* compensation.from — начало вилки
* compensation.to — конец вилки
* compensation.currencyCode — валюта
* area.id — идентификатор локациии
* employment — занятость (полная, частичная и др.)
* area.regionId — дополнительный идентификатор локации
* workExperience — требуемый опыт работы
* workSchedule — график работы
На основе этих данных и предстоит решить кейс. Метрикой задачи является MRR@100.
Этапы чемпионата
В первом этапе участники на протяжении двух месяцев (до 21 февраля) загружают свои решения в формате csv.
Топ 20% (но не более 50 команд) участников первого этапа пройдут во второй этап, где им предстоит подготовить свои решения для работы в docker формате. На это выделена неделя (до 1 марта).
После окончания предыдущего этапа участники больше не смогут отправлять новые ответы. Три финальных решения всех участников второго этапа проверят на новых данных в течение двух недель (до 18 марта). На основе этих проверок будет построен финальный рейтинг чемпионата.
Призы
Общий призовой фонд конкурса — 500 000 р.
1 место: 250 000 р.
2 место: 150 000 р.
3 место: 100 000 р.
Участников с самыми интересными решениями мы пригласим (конечно, при взаимном интересе) на собеседование в hh.ru на позицию дата-сайентиста.
Как принять участие?
Переходите по ссылке, регистрируйтесь на Boosters и вы в игре!
Удачи