Почему каждому Дата-сайентисту нужен Инженер данных?

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

В этом посте хочу поделиться своим переводом одной любопытной статьи на Medium на тему "кто есть кто в IT, и как бизнесу получить максимальную пользу от каждого специалиста".

Перевод подготовлен при поддержке сообщества аналитического курса DataLearn и телеграм-канала Инжиниринг Данных. 

На фото: Eunice Lituanas.
На фото: Eunice Lituanas.

Примерное время прочтения: 3 минуты 32 секунды. 

Дата-сайентист назван «самой сексуальной профессией 21-го века». The Harvard Business Review обьясняет это тем, что такой «гибрид хакера, аналитика, переговорщика и ценного советчика» — очень редкое сочетание навыков, и высоко оплачивается. 

Слишком хорошо, чтобы быть правдой? По данным Forbes, да. Оказывается, что большую часть времени (до 79%) дата-сайентисты занимаются ненавистной им работой. 

Спрос на дата-сайентистов 

Тысячи компаний из различных сфер нанимают дата-сайентистов в качестве секретного оружия для своего бизнеса, подражая «квантам» Уолл-стрит 80-90-х гг, которые обладали уникальными способностями понимать и интерпретировать данные. Совсем как в клипе The Big Short

Учитывая, что на рынке примерно 11 тысяч дата-сайентистов, а спрос на них резко растёт, конкуренция среди работодателей за этих специалистов очень жёсткая. 

Бюро трудовой статистики США считает, что в 2018 году спрос будет превышать предложение на 50-60%. А по прогнозам  McKinsey, в 2018 году только в США будет не хватать 1,5 миллионов аналитиков и менеджеров, которые умеют работать с данными и принимать на их основе решения.  

Компании, которые сейчас не наймут дата-сайентистов, потом просто не смогут их найти. 

Примечание переводчика:

статья 2017 года, поэтому конкретные цифры прогнозов не особо актуальны, но, согласно более свежим оценкам, в целом тренд не меняется – в ближайшие несколько лет спрос на DS продолжит расти, но сохранится и нехватка квалифицированных кадров.

Роль дата-сайентиста 

Итак, компания нанимает дата-сайентиста, а что потом? Как они совершенствуют окружение, чтобы максимально развивать навыки специалиста и убедить его остаться? 

Сначала рассмотрим, из чего состоит типичный рабочий день дата-сайентиста

  • построение датасетов для обучения моделей (3% времени) 

  • очистка и подготовка  данных (60%) 

  • сборка датасетов (19%) 

  • поиск зависимостей в данных (9%) 

  • совершенствование алгоритмов (4%) 

  • прочее (5%). 

И вот тут мы понимаем, насколько эта работа не секси, потому что подавляющее большинство специалистов единогласно заявляют, что самая нелюбимая часть их работы — это сборка датасетов, их подготовка и очистка. Более того, подготовка и очистка данных не имеют ничего общего с поиском инсайтов, это просто преобразование данных в нужную форму. Да, это требует серьёзных навыков, но не в области дата-сайенс. 

Компании могли бы освободить до 79% времени дата-сайентистов (которое те могли бы потратить на аналитику), переложив обязанности по подготовке данных на кого-то другого. В этом случае компании, с одной стороны, получат выгоду от того, что их специалисты больше времени посвящают поиску инсайтов, а те в свою очередь получат возможность заниматься действительно любимым делом. 

В свою очередь подготовка данных должна быть передана особому специалисту - инженеру данных. 

Роль инженера данных 

Потребность в инженерах данных тоже растёт. В статье The Rise of the Data Engineer Максим Бошемин, инженер данных в Airbnb, рассказывает о том, как в 2011 году он пришёл в Facebook на позицию BI разработчика, а спустя два года покинул компанию, будучи уже инженером данных. По его словам, потребность в более сложном ETL, основанном на коде, а также изменение моделей данных, – все это подогревает спрос на дата-инженеров. 

Так в чем же заключается работа дата-инженера? Это извлечение данных, их обработка, наполнение, очистка и/или автоматизация анализа данных. Бошемин описывает это так: «инженер данных создаёт инструменты, инфраструктуру, фреймворки и сервисы. В небольших компаниях – где ещё нет команды, отвечающей за инфраструктуру — работа инженера данных может также включать в себя построение и поддержание инфраструктуры данных в компании.» 

Другими словами, инженер данных сам по себе не находит инсайты, но занимается подготовкой достоверных данных. Для кого? Для дата-сайентистов и аналитиков данных. 

Возвращение сексуальности (В оригинале - Bringing Sexy Back)

Мы не могли устоять.  

Если бы инженеры данных занимались чисткой, подготовкой и сборкой датасетов, дата-сайентисты могли бы сфокусироваться на поиске зависимостей, совершенствовании алгоритмов и прочей секси-части их работы. Ну, вы понимаете. 

Говоря простыми словами, совместную работу инженера данных и дата-сайентиста можно описать так: 

Чтобы построить систему, в которой к аналитикам попадают уже предварительно  подготовленные данные, компаниям нужно сделать два шага: 

  1. Ввести новую должность – инженер данных – и создать культуру дата-инжиниринга и открытости данных. 

  1. Внедрить новые технологии обработки данных (Airflow, Kafka, Spark,  Mesos и т.д.), которые позволяют быстро работать с большими объёмами информации. 

Те компании, у кого это получится, точно станут привлекательнее для лучших дата-сайентистов. И, как результат, получат больше пользы от имеющихся данных. 

Источник: https://habr.com/ru/post/587974/


Интересные статьи

Интересные статьи

Представьте, что вы хотите провести вечер за просмотром фильма, но не знаете, какой выбрать. Пользователи Яндекса часто оказываются в такой же ситуации, поэтому наша команда разрабатывает рек...
Запрос на бесконечное продление жизни (жизнь после смерти) присутствует практически во все время существования человечества. Ответы на этот запрос пытаются дать большинство религий. Есть и чисто ...
Есть статьи о недостатках Битрикса, которые написаны программистами. Недостатки, описанные в них рядовому пользователю безразличны, ведь он не собирается ничего программировать.
Этот пост будет из серии, об инструментах безопасности, которые доступны в Битриксе сразу «из коробки». Перечислю их все, скажу какой инструмент в какой редакции Битрикса доступен, кратко и не очень р...
«Оценка за полёт – неудовлетворительно» – сказал я инструктору, который только что совершил полёт с одной из наших лучших курсанток. Он посмотрел на меня в замешательстве. Я ожидал тако...