Подборка рабочих примеров обработки данных

Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!

Привет, читатель.

По стопам моего первого поста подборки датасетов для машинного обучения — сделаю подборку относительно свежих датасетов с рабочими примерами по обработке данных. Ведь ни для кого не секрет, что обучение на хороших примерах проходит эффективнее и быстрее. Посмотрим, что интересного нам смогут показать одни из лучших примеров по обработке данных.

Схема работы с текущим постом унаследуется от моего поста про лучшие блокноты по ML и DS, а именно — сохранил в закладки → передал коллеге.

+ бонус в конце статьи — крутой курс от ФПМИ МФТИ.

Итак, давайте приступим.

Подборка датасетов с рабочими примерами обработки данных:

Suicide Rates Overview 1985 to 2016 — сравнение социально-экономической информации с показателями самоубийств по годам и странам.

Примеры обработки:

Suicide data — Full interactive dashboard;
Mental Health, Happiness, Economics, Human Freedom;
Data Visualization of Suicide Rates

Spotify's Worldwide Daily Song Ranking — ежедневный рейтинг 200 самых прослушиваемых песен в 53 странах с 2017 и 2018 годов пользователями Spotify.

Пример обработки:

Top Songs on Spotify: What makes them popular?;
Spotify Chart Trend + Seasonal ARIMA;
Trends in Spotify's Worldwide Daily Songs 17 -18.

Crimes in Boston — записи из Бостонской системы отчетов о происшествиях с преступностью, включающая в себя происшествия, и информацию о том когда и где оно произошло.

Пример обработки:

Boston crimes starter EDA;
Boston Crime Reports;
transfer learning and ImageDataGenerator.

Google Play Store Apps — категории, рейтинги, размер всех приложений Google Play.

Пример обработки:

All that you need to know about the Android market;
How to get «High» Rating on Play Store;
Google Play Store EDA.

Pokémon for Data Mining and Machine Learning — статистика и особенности покемонов;

Пример обработки:

Pokemon Data Clustering;
Pokemon Types and Stats ggplot2 Visualisations;
Pokemon data analysing.

A Million News Headlines — данные заголовков новостей, опубликованных за последние 15 лет.

Пример обработки:

What is with News headlines;
Meaningful Random Headlines by Markov Chain;
Topic Modelling with LSA and LDA.

Airplane Crashes Since 1908 — полная история авиакатастроф по всему миру, с 1908 года по настоящее время.

Пример обработки:

Who not to fly with...;
Airplane Crashes [Data Visualization];
Chinese Zodiac and Aircraft Deaths.

News Headlines Dataset For Sarcasm Detection — высококачественный набор данных для задачи обнаружения сарказма.

Пример обработки:

Detecting Sarcasm Using Different Embeddings;
Sarcasm with Keras;
Beginners's guide to NLP using spaCy

Historical Air Quality — данные о качестве воздуха, собранные на наружных мониторах по всей территории США.

Пример обработки:

Air Pollution 101;
Let's analyze our Air that we take!;
What these weather data will tell us?

Nutrition Facts for McDonald's Menu — анализ питания каждого пункта меню в McDonald's США.

Пример обработки:

Super Sized We?
Calories we eat...in Mcdonald's;
McDonald's Menu

LEGO Database — детали / комплекты / цвета и запасы каждого официального набора LEGO в базе данных Rebrickable.

Пример обработки:

LEGO- Let's play;
Finding Lego color themes with topic models;
Have LEGO sets been getting bigger over time?

Global Commodity Trade Statistics — объемы импорта и экспорта для 5000 товаров в большинстве стран мира за последние 30 лет.

Пример обработки:

Overall Global Trading Statistics;
Trade Statistics;
Sheeps vs Goats.

Crime in India — полная информация о различных аспектах преступлений, совершенных в Индии с 2001 года.

Пример обработки:

Crime Analysis in India;
Crime Data EDA;
Exploratory — Top States & Districts.

Predicting a Pulsar Star — данные по пульсарам, собранные во время обзора Вселенной.

Примеры обработки:

Predicting pulsar star in the universe;
Prediciting A Pulsar Star;
Pulsar Star Classification

French employment, salaries, population per town — данные, показывающие равенство и неравенство во Франции.

Пример обработки:

Using Regression to Predicting Earnings in France;
Interactive Map & Graph — job & salary inequality;
How big is French Industry?

United States Census — данные переписи в США.

Пример обработки:

How to Query the USA Census Dataset;
United States Campsites;
Fork of United States Campsites

California Housing Prices — цена на жилье в Калифорнии.

Пример обработки:

Introduction to machine learning in R (tutorial);
Gradient Boosting and Parameter Tuning in R;
Geospatial Feature Engineering and Visualization

US Unemployment Rate by County, 1990-2016 — данные по безработице министерства труда США.

Пример обработки:

Maps are beautiful, Unemployment is not;
Analysis of world crime;
Time Series Analysis on US Unemployment Rate.

World of Warcraft Avatar History — набор записей, которые детализируют информацию о персонажах игрока в игре с течением времени.

Пример обработки:

A World of Warcraft;
Wow Dataset — Exploratory Analysis;
General EDA and a Movement network chart

The Gravitational Waves Discovery Data — данные о событиях гравитационных волн GW150914.

Пример обработки:

Dataload;
Read HDF5 from Julia;
Plot the Data.

Бонус!

А бонусом у нас сегодня будет прекрасный курс по Deep Learning, рассчитанный на старшеклассников, интересующихся программированием и математикой, а также студентов, которые хотят начать заниматься глубоким обучением.

Цель курса — познакомить с основными принципами глубокого обучения (нейронных сетей) в интерактивном формате и на примере практических задач.

Программа курса

Python: основы, Google Colab;
Введение в линейную алгебру. Векторы. Матрицы и операции с ними. Библиотека NumPy;
Библиотеки Pandas и MatPlotlib. Основы машинного обучения;
Элементы теории оптимизации. Градиент. Градиентный спуск. Линейные модели;
Введение в глубокое обучение. Перцептрон. Нейрон с сигмоидой (и другими функциями активации). Основы ООП в Python;
Библиотека PyTorch. Многослойные нейросети;
Обучение нейронных сетей на практике. Cifar10, notMNIST;
Сверточные нейросети. Сверточный слой. Пулинг слой;
Практика обучения нейросетей. Классификация дорожных знаков;
Transfer Дearning. Популярные в Computer Vision архитектуры;
Сегментация картинок. U-Net;
Участие в соревнованиях на Kaggle;
Object Detection. YOLOv3;
Классический GAN. Нейронный перенос стиля;
Базовые методы обработки текста;
Word Embeddings;
Рекуррентные нейронные сети;
LSTM, GRU ячейки;
Языковые модели;
Машинный перевод;
Text2Speech;
SuperResolution.

Также вы можете заглянуть на Youtube-канал Deep Learning School. Там много отличных видео ;)

На этом наша короткая подборка примеров обработки данных подошла к концу. Надеюсь вы узнали для себя что-нибудь новое. Как принято на Хабре, понравился пост — поставь плюс. Не забудьте поделиться с коллегами. Также, если у вас есть то, чем вы можете поделиться сами — пишите в комментариях. Больше информации о машинном обучении и Data Science на Хабре и в телеграм-канале Нейрон (@neurondata).

Всем знаний!

Источник: https://habr.com/ru/post/460557/

Вернуться к списку

Интересные статьи

Как продолжительность смены и число одновременно обслуживаемых проектов влияют на время обработки контакта?

Если вы задавались вопросами производительности труда операторов и управления средним временем обработки контакта (Average Handling Time, AHT), то материал, который вы се...

Как облегчить себе жизнь при использовании Git (а также подборка материалов для глубокого погружения)

Tree of Dragons II by surrealistguitarist Для тех, кто каждый день использует Git, но чувствует себя неуверенно, команда Mail.ru Cloud Solutions перевела статью фронтенд-разрабо...

Пример создания с нуля интернет-магазина на конструкторе Битрикс24

В обновлении «Сидней» Битрикс выпустил новый продукт в составе Битрикс24: магазины. Теперь в любом портале можно создать не только лендинг или многостраничный сайт, но даже интернет-магазин. С корзино...

Система сохранения/загрузки данных

Всем привет! Наверное каждый, кто начал делать игры на Unity столкнулся с дилеммой как сохранить игровой прогресс. Сегодня я вам расскажу про мой способ. Он не новый, но вполне себе рабочий. ...

Где взять аудиосемплы для ваших проектов: подборка из девяти тематических ресурсов

В прошлый раз мы делали подборку ресурсов с полноценными музыкальными композициями для приложений, игр или видео. Сегодня рассказываем о площадках с библиотеками коротких звуков и семплов, распро...