Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!
Продолжаем делиться интересными курсами и лабами, книгами и подкастами, блогами и сообществами, а также Telegram- и YouTube-каналами, которые наши крутые эксперты читают сами и советуют тем, кто хочет быть в курсе всего, что происходит в мире практической кибербезопасности.
Вот, кстати, наша первая подборка, посвященная анализу защищенности мобильных и веб-приложений, реверсу зловредов, threat intelligence и расследованию сложных инцидентов. Читайте, сохраняйте в закладки, если вдруг пропустили, и будьте на шаг впереди хакеров!
В этом посте — три десятка полезных ресурсов по машинному обучению от Александры Мурзиной, Вадима Столярова и Игоря Пестрецова. По их словам, они подойдут и совсем новичкам, которые хотят развиваться в этом направлении, и тем, кто делает первые шаги и еще не успел освоить все тонкости, и опытным исследователям, которым важно следить за новостями из мира ML и data science и постоянно совершенствовать свои навыки.
Зачем машинное обучение нужно в кибербезопасности?
Если вы этого еще не знали — рассказываем.
В информационной безопасности постоянно циркулирует много данных: трафик, события, киберинциденты и прочее. С развитием сетевых технологий, например того же интернета, стало казаться, что алгоритмы, основанные на статистике и автоматизированном анализе, существовали всегда, потому что вручную анализировать такие массивы данных попросту невозможно. А чтобы обеспечивать безопасность, нужно уметь это делать быстро.
Машинное обучение, совершившее в 2010 году технологический прорыв, стало решением многих насущных проблем кибербезопасности, среди которых разметка трафика, обнаружение атак нулевого дня, невозможность использовать сигнатурные методы для части задач и дефицит экспертов, умеющих писать сигнатуры.
Разработчики пытались создавать средства защиты с ИИ либо делать эту технологию основным достоинством продуктов ИБ. Так, появились new generation продукты — новый класс продуктов (NextGen Antivirus, NextGen Firewall и XDR), использующих в основном или даже полностью только техники машинного обучения для обнаружения атак. В индустрии до сих пор так и не пришли к мысли о том, чтобы применять в кибербезопасности исключительно техники машинного обучения. И на это есть причины: традиционные техники в кибербезопасности, к примеру сигнатурный анализ, работают достаточно быстро и всегда интерпретируемы для специалистов. Кроме того, их гораздо легче поддерживать и не надо долго обучать.
Однако есть задачи, которые нельзя решить традиционными для ИБ инструментами, и тогда применяют техники ИИ. Например, машинное обучение позволяет обнаруживать ранее неизвестные атаки, и его алгоритмы не так просто обмануть. ML-техники применяются в фильтрации спама и анализе трафике, при обнаружении фрода или вредоносного программного обеспечения, для защиты данных от утечек, несанкционированного доступа и неправомерного использования пользовательских привилегий. Подробнее об использовании машинного обучения против хакеров и других киберугроз читайте здесь.
Блоги и сообщества:
Машинное обучения для людей — простые и понятные статьи для тех, кто хочет разобраться в машинном обучении без формул и теорем, зато с примерами реальных задач и их решениями.
КвазиНаучный блог Александра Дьяконова
Towards Data Science
Hugging Face — сообщество по ИИ; содержит приложения, датасеты, документы, решения, а также современные модели на основе эталонного открытого исходного кода в области машинного обучения, которые можно обучать и развертывать.
Papers with code — бесплатный и открытый ресурс с документацией, наборами данных, методами и оценочными таблицами по машинному обучению. Кто угодно может внести свой вклад.
MachineLearning.ru — профессиональный ресурс, посвященный машинному обучению, распознаванию образов и интеллектуальному анализу данных.
Что слушать полезного. Подкасты:
Вы находитесь здесь — подкаст о том, как человек учит машину всему, что умеет сам, а именно: постигать, творить, общаться и нервничать. Обсуждают, куда нас ведет развитие ИИ и как долго человечеству еще идти по дороге прогресса.
Machine Learning Podcast — подкаст от неспециалиста для неспециалистов. Авторы рассказывают о развитии индустрии, проводят ликбез, объясняют терминологию и профессиональные жаргонизмы. В общем, то что надо, для новичков.
Книги:
Ian Goodfellow, Yoshua Bengio and Aaron Courville. Adaptive Computation and Machine Learning series.
Francois Chollet. Deep Learning with Python.
Jon Krohn, Grant Beyleveld, Aglaé Bassens. Deep Learning Illustrated: A Visual, Interactive Guide to Artificial Intelligence.
Clarence Chio, David Freeman. Machine Learning and Security.
Вадим Столяров
Специалист группы машинного обучения
В первой книге из подборки автор рассказывает о фундаментальных понятиях — начиная с основ машинного обучения и заканчивая сложными многослойными нейронными сетями. У книги есть некий порог вхождения: изложение подкрепляется расчетами, поэтому ее читателям надо дружить с математикой.
Вторая книга в списке больше практическая. Ее автор — создатель библиотеки глубокого обучения Keras, выпущенной в 2015 году. Во время чтения можно сразу пробовать реализовывать различные архитектуры нейронных сетей.
Третий участник подборки — большая обзорная книга о современном состоянии глубокого обучения (deep learning) с красивыми иллюстрациями и примерами кода.
Практика, практика и еще раз практика! Курсы и лекции:
Deeplizard — бесплатные видеокурсы по глубокому обучению.
3Blue1Brown — интересно, а главное, понятно рассказывают про различные математические концепции.
Deep Learning School — полезный курс, который изначально создавался для школьников, но в итоге оказался полезным всем, кто изучает нейронные сети. Авторы курса — студенты и сотрудники Физтех-школы прикладной математики и информатики МФТИ и Лаборатории нейронных систем и глубокого обучения МФТИ.
Нейронные сети и компьютерное зрение — авторы курса — эксперты Samsung AI Center —объясняют математические основы доступным языком и дают базовые знания на примере решения задач компьютерного зрения.
Machine Learning Engineering for Production (MLOps) — курс компании DeepLearning.AI на Coursera.
Прикладное машинное обучение
Машинное обучение от Нейчева
StatQuest with Josh Starmer — лекции, помогающие лучше понять статистику и машинное обучение.
Игорь Пестрецов
Специалист группы машинного обучения
Тем, кто хочет быстро освоить фреймворк PyTorch, советую обратить внимание на курсы Deeplizard. Авторы начинают с самых основ, затрагивают важные аспекты фреймворка, без знания которых его дальнейшая эксплуатация может быть затруднительна. При этом звуковой и визуальный ряд курса отлично оформлен, что очень помогает быстрому усвоению нового материала.
Telegram-каналы и чаты:
OpenDataScience — международное сообщество, объединяющее более 50 тысяч специалистов, исследователей и инженеров, связанных с data science.
Machinelearning — самая актуальная информация из мира ML, нейронных сетей и DI.
Denis Sexy IT — блог Дениса Ширяева, где простым языком рассказывается о нейронных сетях, виртуальной реальности и технологиях.
Machine Learning in Art — канал, где публикуются коллекции коллабораций и освещаются значимые события из мира машинного обучения в изобразительном искусстве.
Small Data Science for Russian Adventures — авторский канал Александра Дьяконова о машинном обучении, глубоком обучении, анализе данных, науке о данных, математике и обо всем остальном, что интересно исследователю.
Александра Мурзина
Руководитель группы машинного обучения
Я рекомендую блог и телеграм-канал Александра Дьяконова: он рассматривает как темы для новичков, так и тонкости, интересные опытным специалистам. Вопросы и проблемы, которые обсуждает Александр, очень часто совпадают с тем, что мы встречаем на практике. Лично я пользуюсь блогом как справочником, когда мне требуется аргументировать какую-то идею, подход или привести подкрепляющий пример. Из телеграм-канала регулярно узнаю новости из мира машинного обучения, которыми делится со своими подписчиками автор.
Twitter. За кем следить:
Data Scientist
AISecurityNews
Ian Goodfellow
Clarence Chio
Где искать единомышленников:
ODS.ai — международное сообщество, которое объединяет специалистов, исследователей и инженеров data science. Можно совместно решать актуальные задачи по машинному обучению в самых разных предметных областях, присоединиться к сообществу в Slack. Там же публикуются анонсы всех значимых мероприятий сообщества: конференций, Data Fests, летних и зимних школ.
Вселенная GitHub:
Machine learning system design pattern — репозиторий с шаблонами проектирования систем для обучения, обслуживания и использования систем машинного обучения в производственной среде.
RedML — проекты, посвященные практическим методам машинного обучения. Будут полезны для offensive-задач.
Foolbox — библиотека Python, позволяющая легко запускать состязательные атаки на моделях машинного обучения.
Deep Learning with Python notebooks — репозиторий по Jupyter notebooks, реализующих примеры кода из книги «Глубокое обучение с помощью Python» (Manning Publications). Она тоже есть в нашей подборке.
Machine Learning for Cyber Security — хорошие инструменты и ресурсы, связанные с использованием машинного обучения в кибербезопасности.
Совет от нас: не копите полезные закладки