Как самостоятельно выучиться на дата-саентиста — адаптированная подборка

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!

Меня зовут Айра, я веду блог про математику, продукты и ML, делаю проекты в DS/ML, а также курсы по созданию ML-проектов. От своей аудитории блога и знакомых часто получаю вопросы в духе "Cтоит ли тратить деньги на тот или иной дорогой курс с codename «Стань DS за два месяца» или все же выучиться на дата-саентиста самостоятельно и бесплатно, и в таком случае, с чего начать?"

Недавно собрала ответ на этот вопрос достаточно развернуто, на мой взгляд, чтобы поделиться им с широкой аудиторией. Не все платные курсы плохие (хотя большинство — да — из-за механизмов отбора, продаж и слабой программы), но о них напишу отдельно. Мне кажется, нужно учитывать больше персонализированных параметров для того, чтобы грамотно выбирать хороший курс за деньги.

  1. Во-первых, в список вошли бесплатные онлайн-курсы и ресурсы для самостоятельного обучения, которые проходила сама или советует профессиональное сообщество аналитиков и дата-саентистов (часто упоминающиеся в ODS.ai), где не нужно проходить какой-то отбор или быть ограниченным офлайн-посещением.

  2. Во-вторых, конечно, это далеко не полный список онлайн-курсов, который вы можете встретить, зато в него попали лучшие курсы от сильных математических и Computer Science-школ мир и другие распространенные ресурсы среди профи из того, что я смогла отфильтровать на свой вкус.

  3. В-третьих, начну с короткого списка, с которого, как мне кажется, стоит начинать обучение предмету, и он идет сразу же следующим абзацем.

С чего советую начать, чтобы тратить время эффективно?

Предполагая, что начинающий дата-саентист уже прошел подготовительные курсы а-ля гарвардский CS50 по основам программирования, pythontutor.ru или курс на Stepik от Института Биоинформатики, посоветую несколько шагов, которые должны стать твердой базой. Далее ссылки все полные, чтобы было легче копировать:

  • Зарегистрироваться в самом популярном в СНГ профессиональном slack-сообществе Open Data Science ODS.ai, вступить в как можно больше чатов, в том числе про менторство, обучение и карьеру и общаться с местными, чтобы расширить свой кругозор относительно работодателей, требований к прохождению интервью, к позиции и их различиях в разных компаниях и др, найти хороших наставников, тк. такие в сообществе есть!

  • Пройти вводный курс «Математика и Python для анализа данных» на Coursera — платный, недорогой и хороший. www.coursera.org/learn/mathematics-and-python

  • По программированию — пройти в leetcode.com все релевантные упражнения: это бесплатные или недорогие в премиальной версии в соотношении цена/качество тренажеры (в нем есть в том числе упражнения на интервью в FAANG).

  • Пройти mlcourse.ai — это открытый курс машинного обучения от ODS. Авторы смогли разработать курс машинного обучения с балансом между теорией и практикой, когда в лекции вы разбираете достаточно подробно математику, а затем упражняетесь сначала в блокноте, затем на Kaggle.

  • Для обучения решению разнообразных задач и оптимизации кода — участвовать в соревнованиях по анализу данных и машинному обучению на платформе kaggle.com.

Математика для DS/ML

  • Приятный курс Стэнфорда по DS "Introduction to Statistics" www.coursera.org/learn/stanford-statistics

  • Коротенький интерактивный курс по теории вероятностей и математической статистике "Seeing Theory" seeing-theory.brown.edu/

  • Хороший вводный курс по математике для анализа данных, более объёмный "Специализация Математика для анализа данных:. Можно послушать только интересную тему: дискретная математика / линейная алгебра / математический анализ / теория вероятностей. www.coursera.org/specializations/maths-for-data-analysis

  • Довольно подробная и читаемая книга по теорверу и матстату "Dekking, A Modern Introduction to Probability and Statistics" cis.temple.edu/~latecki/Courses/CIS2033-Spring13/Modern_intro_probability_statistics_Dekking05.pdf

Python&SQL для DS/ML

  • Упомянутый выше бесплатный тренажер по Python с нуля: pythontutor.ru/

  • Отличный курс по инструментам по DS от IBM "Специализация Data Science Fundamentals with Python and SQL" www.coursera.org/specializations/data-science-fundamentals-python-sql

  • Упомянутый выше русский курс по питону и математике (платный, недорогой и хороший) "Математика и Python для анализа данных (Coursera)" www.coursera.org/learn/mathematics-and-python

  • Упомянутый выше https://leetcode.com/: пройти все релевантные упражнения, это бесплатные или недорогие в премиальной версии в соотношении цена/качество тренажеры (в нем есть в том числе упражнения на интервью в FAANG).

Начальные курсы по ML

  • Как бы этот курс не ругали из-за устаревшего языка программирования Octave (на котором пишут на Matlab), на мой вкус — это пока что самый простой и понятный курс по ML. Машинное обучение (Coursera) https://www.coursera.org/learn/machine-learning — стэнфордский курс по машинному обучению от Andrew Ng

  • mlcourse.ai — это открытый курс машинного обучения от ODS. Авторы смогли разработать курс машинного обучения с балансом между теорией и практикой, когда в лекции вы разбираете достаточно подробно математику, а затем упражняетесь сначала в блокноте, затем на Kaggle.

Более продвинутые курсы по ML

  • Если хочется погрузиться в математические доказательства методов машинного обучения, то есть прекрасные ШАДовские лекции К.В. Воронцова: плейлист "Курс «Машинное обучение» 2019” на YouTube-канале “Компьютерные науки», www.youtube.com/watc? v=SZkrxWhI5qM&list=PLJOzdkh8T5krxc4HsHbB8g8f0hu7973fK&index=2

  • Также хорош ежегодный гарвардский курс «Advanced Topics in Data Science CS109B». harvard-iacs.github.io/2020-CS109B/

  • Или курс по углубленным алгоритмам Advanced ML от ВШЭ: «Специализация Продвинутое машинное обучение» www.coursera.org/specializations/aml

Deep learning

(Мне кажется, можно пройти один курс из списка, а остальные смотреть на предмет дополнений)

  • Рекомендованный Стэнфордовский курс по DL «CS231n: Convolutional Neural Networks for Visual Recognition» cs231n.github.io/

  • Хороший курс от Университета Карнеги—Меллон "11-785 Introduction to Deep Learning" deeplearning.cs.cmu.edu/F21/index.html

  • Курс от MIT: «Practical Deep Learning for Coders» https://course.fast.ai/

  • ШАДовский курс по глубокому обучению доступен в github: «Practical_DL» github.com/yandexdataschool/Practical_DL

  • Бесплатные классные курсы от МФТИ: dlschool.org/

  • Также есть курс по DL у ODS.ai, который тоже советуют проходить в самом сообществе: «Deep Learning на пальцах» dlcourse.ai/

  • А еще есть курс у Samsung AI Research Center на Stepik.org stepik.org/course/50352/info

Natural Language Processing

  • Стэнфордовский «CS224n: Natural Language Processing with Deep Learning » web.stanford.edu/class/cs224n/

  • ШАДовский «NLP Course (Lena Voita, Github)» lena-voita.github.io/nlp_course.html

  • Оксфордовский «DL for NLP», правда 2016-2017 г www.cs.ox.ac.uk/teaching/courses/2016-2017/dl/

  • Второй курс у Samsung AI Research Center на Stepik.org https://stepik.org/course/54098/promo

Reinforcement Learning & Self-driving cars

  • ШАДовский «Practical RL»: github.com/yandexdataschool/Practical_RL

  • От Deepmind "RL Course by David Silver" www.youtube.com/watc? v=2pWv7GOvuf0

  • Курс от ETH & Toyota: «Self-Driving Cars with Duckietown» www.edx.org/course/self-driving-cars-with-duckietown

  • Выгруженные лекции курса Udacity courseclub.me/1-udacity-intro-to-self-driving-cars-v1-0-0/

  • Австралийский курс StarAi «Deep Reinforcement Learning Course » www.starai.io/course/

Data Engineering & MLOps

  • Cookbook на Github.com github.com/andkret/Cookbook

  • Бесплатный курс по DE от Дмитрия Аношина, дата-инженера из Microsoft, ex-Amazon: Getting start with Data Engineering and Analytics https://datalearn.ru/ (курс готовится in progress)

Соревнования

Ну, и для обучения решению разнообразных задач и оптимизации кода — участвуйте в Kaggle. https://kaggle.com/

Кроме Kaggle, есть еще несколько соревнований:

  • По RL от AWS: AWS DeepRacer https://aws.amazon.com/deepracer/

  • Crowdsourcing AI (Alcrowd) https://www.aicrowd.com/

  • По RL от MIT: Battlecode https://battlecode.org/

  • По RL от open.ai: Gym https://gym.openai.com/

  • От Mail.Ru Group: AI Cup https://russianaicup.ru/

  • От Yandex: Yandex Cup ML Challenge https://yandex.com/cup/ml/

  • CodeCup https://www.codecup.nl/intro.php

Успехов в самостоятельной подготовке!

Источник: https://habr.com/ru/post/589765/


Интересные статьи

Интересные статьи

На днях мы продолжили делиться на Хабре нашими открытыми проектами, поговорили о проблемах, связанных с продвижением технологических продуктов, и начали обсуждать исследование «публичного образа» Санк...
Наверняка, вы слышали выражение: “перегорел на работе”. Возможно, так говорили и о вас. Если долгожданный отдых не восполняет силы, а мысли о работе вызывают только раздр...
SWAP (своп) — это механизм виртуальной памяти, при котором часть данных из оперативной памяти (ОЗУ) перемещается на хранение на HDD (жёсткий диск), SSD (твёрдотельный накоп...
Продолжаем нашу подборку интересных материалов (1, 2, 3, 4, 5, 6). На этот раз предлагаем послушать курс об алгоритмах интеллектуальной обработки больших объёмов данных и два новы...
Всем привет! Я работаю в компании, QuantNet, которая проводит конкурсы алгоритмических стратегий. В недавнем времени передо мной встала важная задача — обеспечить гарантии неприкосновенности даты...