Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!
К старту флагманского курса по Data Science делимся мнением инженера ML о том, какие разочарования могут ожидать вас на работе как дата-сайентиста? чтобы вы были готовы к ним. За подробностями приглашаем под кат.
Да, я дата-сайентист, и да, вы правильно прочитали название статьи, но кто-то же должен был об этом сказать. Сейчас много пишут о том, что наука о данных — это самая крутая работа ХХI века. В этой сфере полно высококвалифицированных специалистов, способных решать сложные задачи. Умники превратились в дата-сайентистов с огромными заработками, и сейчас это просто работа мечты.
Но правда в том, что (как говорится в этой статье Financial Times) дата-сайентисты обычно «тратят 1–2 часа в неделю на поиски новой работы». В статье также утверждается, что «специалисты по машинному обучению возглавили список разработчиков, заявивших, что они ищут новую работу (таких 14,3 %). На втором месте — дата-сайентисты (13,2 %)». Это данные опроса 64 000 разработчиков на Stack Overflow. Я и сам был в этом положении и недавно ушёл из науки о данных.
Почему же дата-сайентисты так стремятся найти новую работу?
Прежде чем ответить на этот вопрос, должен уточнить: я продолжаю быть дата-сайентистом. В целом мне нравится наука о данных, и я не хочу отговаривать других становиться дата-сайентистами — эта работа может быть увлекательной и приносить удовлетворение. Я просто хотел побыть адвокатом дьявола и показать в статье негативные аспекты этой работы. Думаю, есть 4 основные причины, почему многие дата-сайентисты недовольны своей работой.
1. Ожидания не соответствуют реальности
«Большие данные — это [то, о чём все говорят], никто толком не знает, как это делается, но каждый думает, что все вокруг это делают, и поэтому все говорят, что делают это...» — Дэн Ариели.
Эта цитата прямо в точку. Многие новички в науке о данных (включая меня) хотели бы ею заниматься, решая сложные задачи с помощью новых крутых алгоритмов машинного обучения, оказывающих огромное влияние на бизнес. Казалось, эта работа — важнее всего, что мы делали раньше. Но обычно это не так. Трудно составить исчерпывающий список причин оттока дата-сайентистов из этой сферы, но главная — это несоответствие ожиданий реальности.
Все компании разные, но многие из них нанимают дата-сайентистов, не имея соответствующей инфраструктуры, чтобы начать создавать что-то ценное из ИИ. Это усугубляет проблему его холодного запуска. К тому же в этих компаниях нет опытных специалистов, чтобы помочь новичкам, — вот и рецепт разочарования обеих сторон.
Дата-сайентист пришёл в компанию, чтобы писать умные алгоритмы машинного обучения для выработки бизнес-решений. Но он не может этого делать, ведь его первостепенная задача — разобраться в инфраструктуре данных и/или создавать аналитические отчёты. Компании же нужна диаграмма, показываемая на заседании правления. Затем наступает разочарование: правление не видит достаточно быстро достигаемых результатов, а дата-сайентист остаётся недоволен работой.
Роберт Чанг привёл очень полезную цитату, давая советы начинающим дата-сайентистам:
«Важно оценивать, насколько хорошо наши устремления соотносятся с главным направлением в работе. Находите проекты, команды и компании, чья направленность лучше соответствует вашей».
Этим подчёркивается двусторонний характер взаимоотношений между работодателем и дата-сайентистом. Если компания идёт не в том направлении или её цели не совпадают с целями дата-сайентиста, рано или поздно он уйдёт.
Кому интересно: у Samson Hu есть фантастическая серия статей о том, как была создана команда аналитиков в Wish.
Ещё одна причина разочарования дата-сайентистов схожа с причиной моего разочарования в Academia: я думал, что смогу серьёзно влиять на людей повсюду, а не только в компании. Но если основной бизнес компании — не машинное обучение (мой предыдущий работодатель — издательская фирма), то вполне вероятно, что наука о данных принесёт лишь небольшие дополнительные выгоды. Конечно, может повезти и вас ждёт что-то очень значительное или в каком-то проекте вы наткнётесь на «золотую жилу», но это бывает реже.
2. Политика правит бал
По этой теме уже вышла блестящая статья, посвящённая вопросу политики: The most difficult thing in data science: politics («Самое сложное в науке о данных: политика»), и я очень рекомендую прочитать её. В первых её строках — то, что я хочу сказать:
«Когда я просыпался в 6 утра, чтобы изучать методы опорных векторов, я думал: «Это реально сложно! Зато я буду очень ценным в глазах будущего работодателя!». Если бы была машина времени, я бы вернулся в прошлое и популярно объяснил, в чём был не прав».
Вы серьёзно думаете, что, зная много алгоритмов машинного обучения, станете самым ценным дата-сайентистом? Тогда вернитесь к первому пункту: ожидания не соответствуют реальности.
В реальности люди с наибольшим влиянием в бизнесе должны иметь о вас хорошее мнение. То есть придётся постоянно выполнять ситуативную работу, например получать числа из базы данных и передавать нужным людям в нужное время, выполнять простые проекты только для того, чтобы у нужных людей было правильное представление о вас. Мне часто приходилось это делать на предыдущем месте. Какой бы неприятной она ни была, это необходимая часть работы.
3. За всем, что касается данных, обращаются к вам
Те же самые влиятельные люди часто не понимают, кто такой дата-сайентист. То есть вы будете и экспертом-аналитиком, и специалистом по отчётам, и экспертом по базам данных.
Причём выявлять у вас всё новые навыки будут не только руководители, но и коллеги, полагающие, что вы знаете всё, что связано с данными. Знаете Spark, Hadoop, Hive, Pig, SQL, Neo4J, MySQL, Python, R, Scala, Tensorflow, A/B Testing, NLP, всё машинное обучение и вообще всё, что касается данных.
Кстати, если увидите всё это в должностных инструкциях, бегите без оглядки. Такие есть у компаний, в которых понятия не имеют о стратегии данных. Они наймут кого угодно, считая, что решат все проблемы с данными, взяв на работу любого, кто хоть как-то связан с данными. Но это ещё не всё. Раз вы всё это знаете, то у вас, конечно, и доступ есть ко всем данным, и ответы на все вопросы... и максимально оперативно.
Разъяснить каждому, что вы на самом деле знаете и контролируете, может быть непросто. Не потому, что это как-то скажется на отношении к вам, а потому, что как начинающему дата-сайентисту с небольшим опытом вас будет беспокоить то, что люди будут думать о вас хуже. Это может быть довольно сложной ситуацией.
4. Работа в изолированной команде
Успешные продукты для работы с данными — обычно это умело разработанные пользовательские интерфейсы с интеллектуальными возможностями и, самое главное, полезный результат, который по крайней мере воспринимается пользователями как решение соответствующей проблемы.
Если же дата-сайентист тратит время только на то, чтобы научиться писать и выполнять алгоритмы машинного обучения, то он может быть лишь небольшой (хотя и необходимой) частью команды, которая ведёт к успеху проект по созданию ценного продукта. Такие работающие изолированно команды будут изо всех сил пытаться создать что-то ценное!
Тем не менее во многих компаниях есть команды, занимающиеся обработкой и анализом данных, которые разрабатывают собственные проекты и пишут код, пытаясь решить какую-то задачу. В некоторых случаях этого достаточно. Например, если раз в квартал нужна статическая электронная таблица.
С другой стороны, если цель — оптимизировать предоставление интеллектуальных предложений в продукте для создания веб-сайтов на заказ, то для этого потребуется множество разных навыков, которых нет у большинства дата-сайентистов (только настоящий спец науки о данных может решить эту задачу).
Поэтому, если за проект берётся команда, работающая изолированно, у неё вряд ли что-то получится (или займёт очень много времени, потому что в крупных компаниях организовать работу изолированных команд над совместным проектом непросто).
Поэтому, чтобы быть эффективным дата-сайентистом в своей сфере, недостаточно просто проявлять себя на конкурсах в Kaggle и проходить онлайн-курсы. К сожалению или к счастью (смотря как посмотреть), это зависит от понимания того, как иерархии и политика работают в бизнесе.
Найти компанию с направленностью, соответствующей вашим устремлениям, — вот ключевая цель при поиске работы в сфере науки о данных. А ещё может потребоваться скорректировать ожидания от будущей работы. Надеюсь, я не отбил у вас желание стать дата-сайентистом. Спасибо за внимание.
А если вас ничего не испугало, приглашаем вас на наши курсы по Data Science или Python:
Профессия Data Scientist
Профессия Fullstack-разработчик на Python
Узнайте подробности здесь.
Другие профессии и курсы
Data Science и Machine Learning
Профессия Data Scientist
Профессия Data Analyst
Курс «Математика для Data Science»
Курс «Математика и Machine Learning для Data Science»
Курс по Data Engineering
Курс «Machine Learning и Deep Learning»
Курс по Machine Learning
Python, веб-разработка
Профессия Fullstack-разработчик на Python
Курс «Python для веб-разработки»
Профессия Frontend-разработчик
Профессия Веб-разработчик
Мобильная разработка
Профессия iOS-разработчик
Профессия Android-разработчик
Java и C#
Профессия Java-разработчик
Профессия QA-инженер на JAVA
Профессия C#-разработчик
Профессия Разработчик игр на Unity
От основ — в глубину
Курс «Алгоритмы и структуры данных»
Профессия C++ разработчик
Профессия Этичный хакер
А также
Курс по DevOps
Все курсы