Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!
В 2022 году индустрия больших данных изменилась. И нужно решать, что делать с инфраструктурными вызовами, переходить ли в облако и как продолжать развитие ИТ-решений. Со всем этим компаниям может помочь новая роль в команде — Data Product Manager.
Это статья написана по мотивам выступления на VK Cloud Conf Александра Волынского, Technical Product Manager в VK Cloud. Вы можете посмотреть его целиком в записи.
Главные проблемы и вызовы для индустрии работы с данными в 2022 году
- Инфраструктура и инструменты. Как обеспечить работу систем, построенных на базе ПО вендоров, прекративших продажу лицензий?
- Поддержка и развитие решений на базе зарубежного ПО. Как развивать системы и где получить компетенции для технического сопровождения решений, поддержку которых прекратили зарубежные вендоры?
- Обеспечение безопасности решений. Обновления, новую функциональность и ключевые патчи для закрытия уязвимостей уже не получить.
Учитывая эти проблемы, многие компании решают перейти на Open-Source-инструменты и решения. Но применение этого стека технологий — тоже непростая задача: нужно выбрать решения, запланировать ресурсы, сформировать команду специалистов с нужными компетенциями или найти партнеров по внедрению ПО. И еще понадобится специалист, который все это организует: не всегда в компании может быть достаточно компетенций для реализации таких задач.
Мы в VK Cloud изначально делали ставку именно на Open-Source-решения и их адаптацию. Поэтому сейчас, используя накопленную экспертизу, можем помогать другим компаниям решать вызовы, возникшие в 2022 году в работе с инструментами для больших данных.
Но даже при использовании Open-Source-решения сохраняются другие вызовы:
- Увеличение стоимости инфраструктуры. С большими данными мы обычно работаем на сложных распределенных кластерах из сотен и даже тысяч машин. Стоимость построения и поддержки такого решения в последние месяцы выросла.
- Дефицит комплектующих. Закупать железо, чтобы поддерживать кластер в работоспособном состоянии, стало сложнее.
Миграция в облако как решение
На протяжении последних месяцев мы наблюдаем рост спроса на наши облачные сервисы. Компании, которые хотят оптимизировать затраты, переходят в облако. Но для переноса туда Data-инфраструктуры необходимо учесть ряд факторов.
Данные. 10–100 терабайт перенести не так сложно. А если вы накопили петабайты данных, то для переезда из On-premise в облако понадобится грамотно рассчитать вычислительные мощности и выделить широкие каналы для передачи данных.
Специфика облака. Виртуальные машины, сети и гипервизоры — облачная инфраструктура несколько отличается от физической. При построении высоконагруженной распределенной системы вроде Hadoop эту специфику важно учитывать, чтобы система выдерживала высокие нагрузки.
Допустим, вы решили протестировать Greenplum в облаке на 10 ТБ данных и тест прошел гладко. Но при большом объеме информации и нагрузке, например в сотни пользователей, придется решать задачи, связанные с хранением больших объемов данных и высокой нагрузкой именно в облаке.
При построении кластерных высоконагруженных систем нужно учитывать специфику сетей и дисков в облаках. Возможно, стоит использовать выделенные гипервизоры, локальные высокопроизводительные диски, высокопроизводительные CPU. Это важно предусмотреть в начале проекта.
Для миграции в облако важно привлекать экспертов, которые уже разворачивали Data-решения в облаках, понимают их специфику и помогут построить кластерную систему, хранилище или озеро данных так, как нужно. Такие эксперты есть у нас в VK Cloud — мы уже много лет строим подобные системы и помогаем компаниям переносить Data-платформы в облако.
Что стало с процессами и Big Data-командами
Я много беседовал с коллегами из Data-сообщества: найти джунов и мидлов легко, а вот специалистов Senior-уровня сейчас недостает. Дефицит опыта становится еще одним вызовом: командам приходится мигрировать на новые инструменты, а для этого нужны ребята с высоким техническим уровнем, готовые к тому, чтобы оперативно освоить новый технологический стек.
Например, у компании сейчас есть команда экспертов по Vertica и принято решение переходить на Greenplum. Готовы ли специалисты осваивать новые навыки? Часто нет, потому что думают: «Есть инструмент Х, он лучше всех. Я готов работать только с ним, ни на что другое я не готов. Если мы мигрируем на этот инструмент, то до свидания. Пойду поищу другого работодателя, у которого другие задачи на моем любимом инструменте». Это тоже добавляет сложности в работу с данными в контексте текущих вызовов.
Ряд компаний рассматривают задачу по переходу на новые инструменты как возможность переосмыслить архитектуру действующих решений, исправить узкие места в Data-системах, внедрить новый технологический стек — и в результате получить более эффективное для бизнеса решение по работе с данными.
При построении Data-системы важно учитывать специфику бизнес-процессов компании, источники данных, особенности работы с ними и цели компании. Комплексно решить такую задачу поможет специалист с новой ролью — Data Product Manager.
Data Product Manager — эксперт и в данных, и в отрасли
Это специалист со знанием продукта, экспертизой в предметной области и навыками работы с данными одновременно.
Для того чтобы построить действительно уникальный продукт, который приносит value клиентов и бизнеса, важно, чтобы у команды Data-специалистов была экспертиза в той сфере, в которой компания решает задачи.
Например, если компания делает продукт в области Digital-рекламы, Data-специалист должен быть знаком с онлайн-системами рекламы не как пользователь, а как внутренний разработчик, который понимает специфику сегментации аудитории, идентификации клиентов, формирования таргетов и аудитории по интересам.
Если компания работает в промышленности, то важно найти специалиста по данным, который имеет продуктовое видение и опыт работы над созданием продукта. И при этом понимает специфику отрасли — например, как устроен технологический процесс.
Почему Data Product Manager — это не лишние расходы
Специалист, погруженный в предметную область, сможет понять ценность и потенциал работы с данными, которые собирает компания. Понять, в чем их специфика, какие ошибки могут быть в этих данных и как их можно улучшить и обогатить.
Если Data-специалист без знания производственного процесса создает аналитические системы на промышленном предприятии, то с высокой долей вероятности он не сможет увидеть ошибки в данных или слабости текущего пайплайна данных.
Data Product Manager помогает отвечать на вопросы, какими данными располагает компания: в его обязанности входит определение входящих и исходящих потоков данных. Это тоже непростая задача, которая требует понимания специфики отрасли, понимания специфики построения пайплайнов данных. Если мы возьмем в качестве примера крупный промышленный холдинг, то понять, какие данные у нас есть, уже титаническая работа.
Также именно Data Product Manager смотрит, кто и как использует данные внутри компаний.
Часто найти всех внутренних пользователей Data-решений непросто: данные, витрины данных или результаты пайплайнов могут проходить через несколько рук. Легко идентифицировать круг первых потребителей, которые имеют непосредственный доступ к таблицам и отчетам. Но куда сложнее понять, куда данные потом идут и как преобразуются. Здесь закладывается еще один момент про ошибки Data-Quality-процесса.
Поэтому именно Data Product Manager помогает ответить на вопросы и решать задачи, связанные с упрощением доступа к данным и регуляторными вопросами.
Отличия Data Product Manager от классического Product Manager
Казалось бы, зачем плодить сущности, если есть продакт-менеджеры, которые уже заняты продуктовыми процессами? Но знать продукт недостаточно: важно понимать специфику работы с данными, особенности построения пайплайнов, функциональность конкретных инструментов и систем для работы с данными. Для этого нужен специалист, который перед этим был на позиции аналитика по данным, Data-инженера или Data Scientist.
Data Product Manager зачастую работает со специфическими пользователями — теми самыми Data Scientist и Data-инженерами. Важно, чтобы он говорил с ними на одном языке. Обычный Product Manager может не иметь для этого достаточной глубины знаний и подготовки.
Какие задачи решает Data Product Manager
- Построение внутренней Data-платформы для различных категорий пользователей по типу SaaS — Self-Service, упрощение доступа к данным и работы с хранилищами для широкого круга пользователей. Это помогает бороться с Data Silos, когда у нас есть разрозненные хранилища данных и нам нужно их объединить в единое или обогащать данные одного хранилища данными из других систем.
- Ускорение решения Data-задач — увеличение скорости, с которой мы добавляем новые фичи в Data-продукт.
- Повышение эффективности и отдачи от Data-проектов. У многих компаний есть свои хранилища данных, отрасль уже давно существует, о данных кто только не говорил. Но как теперь посчитать возврат инвестиций в эти хранилища? Это очень нетривиальная задача, которую в том числе может взять на себя Data Product Manager.
Нужен ли вам Data Product Manager?
Да, если:
- вы хотите построить продукт, сконцентрированный на данных;
- вам не хватает набора компетенций традиционного Product Manager;
- у вас уже есть хранилище данных, возможно не одно, и множество отделов, которые работают с данными. Но пропасть между ними слишком велика, и вам нужно как-то собрать вместе их наработки и составить единую систему.
Мы поддерживаем направление MLOps и активно развиваем ML-платформу в облаке, а также строим Cloud Data Platform. Поэтому, если вам нужно работать с данными, смело приходите к нам. Для теста начисляем пользователям 3000 рублей — можно попробовать сервисы и посмотреть, подойдут ли они вам.