Подборка датасетов для машинного обучения

Привет, читатель!

Перед тобой статья-путеводитель по открытым наборам данных для машинного обучения. В ней я, для начала, соберу подборку интересных и свежих (относительно) датасетов. А бонусом, в конце статьи, прикреплю полезные ссылки по самостоятельному поиску датасетов.

Меньше слов, больше данных.

Подборка датасетов для машинного обучения:

Данные смертей и сражений из игры престолов — этот набор данных объединяет три источника данных, каждый из которых основан на информации из серии книг.
Глобальная база данных терроризма — Более 180 000 террористических атак по всему миру, 1970-2017.
Биткойн, исторические данные — данные биткойнов с интервалом в 1 минуту с избранных бирж, январь 2012 г. — март 2019 г.
FIFA 19 полный набор данных игроков — 18k + FIFA 19 игроков, ~ 90 атрибутов, извлеченных из последней базы данных FIFA.
Статистика видео YouTube — ежедневная статистика трендовых видео на YouTube.
Обзор показателей самоубийств с 1985 по 2016 год — Сравнение социально-экономической информации с показателями самоубийств по годам и странам.
Huge Stock Market Dataset — исторические дневные цены и объемы всех американских акций и ETF.
Индикаторы мирового развития — показатели развития стран со всего мира.
Kaggle Machine Learning & Data Science Survey 2017 — Большое представление о состоянии науки о данных и машинного обучения.
Данные о насилии и оружии — полный отчет о более чем 260 тыс. американских инцидентов с применением оружия в 2013-2018 гг.
Рентгенография грудной клетки (пневмония) — 5,863 изображения, 2 категории.
Распознавание пола по голосу — эта база данных была создана, чтобы идентифицировать голос как мужской или женский, основываясь на акустических свойствах голоса и речи. Набор данных состоит из 3168 записанных голосовых сэмплов, собранных от мужчин и женщин.
Студенческое потребление алкоголя — данные были получены в ходе опроса учащихся по математике и португальскому языку на курсах в средней школе. Он содержит много интересной социальной, гендерной и учебной информации о студентах.
Набор данных о клетках малярии — сотовые изображения для выявления малярии.
Опросы молодых людей — данные о предпочтениях, интересах, привычках, мнениях и страхах молодых людей.
Мировые рейтинги университетов — исследуйте лучшие университеты мира.
Обнаружение мошенничества с кредитными картами — датасет по анонимным транзакциям кредитных карт, помеченные как мошеннические или подлинные.
Датасет болезней сердца — эта база данных содержит 76 атрибутов, таких как возраст, пол, тип боли в груди, артериальное давление в покое и другие.
Европейская футбольная база — 25 000+ матчей, атрибуты игроков и команд для европейского профессионального футбола.
Винные обзоры — 130k винных обзоров с разнообразием, местоположением, винодельней, ценой и описанием.
Baidu Apolloscapes. Большой датасет для распознавания 26 семантически разных объектов вроде машин, велосипедов, пешеходов, зданий, уличных фонарей и т. д.
Comma.ai. Более семи часов езды по шоссе. Датасет включает информацию о скорости машины, ускорении, угле поворота руля и GPS-координатах.
Распознавание цветов — этот набор данных содержит 4242 изображения цветов. Сбор данных основан на данных flicr, изображениях Google, изображениях Яндекса.
Ежедневная рыночная цена каждой криптовалюты — исторические цены на криптовалюту для всех токенов.
Шоколадный рейтинг — Экспертный рейтинг более 1700 шоколадных батончиков.
Рынок медицинского страхования — данные о планах в области здравоохранения и стоматологии на рынке медицинского страхования США.
Звуки сердцебиения — классификация аномалий сердцебиения по стетоскопу.
База данных аниме рекомендаций — рекомендации от 76 000 пользователей на myanimelist.net
Изображения клеток крови — 12 500 изображений: 4 разных типа клеток.
Рентгенография грудной клетки — более 112 000 рентгенограмм грудной клетки от более чем 30 000 уникальных пациентов.
Отчеты об убийствах, 1980-2014 гг. — проект «Ответственность за убийства» — самая полная база данных об убийствах в Соединенных Штатах, доступных в настоящее время.
База данных подержанных автомобилей — более 370000 подержанных автомобилей. Содержание данных на немецком языке, поэтому нужно сначала перевести их, если вы не говорите на немецком.
Дом открытых данных правительства США — данные, инструменты и ресурсы для проведения исследований, разработки веб-приложений и мобильных приложений, разработки визуализаций данных.
Национальный центр профилактики хронических заболеваний и укрепления здоровья (NCCDPHP). Центр работает над снижением факторов риска хронических заболеваний.
Крупнейший в Великобритании сборник социальных, экономических и демографических ресурсов.
EconData — несколько тысяч экономических временных рядов, подготовленных рядом правительственных учреждений США и распространенных в различных форматах и СМИ.
Центр исследования побережья — интересные данные о море и его биологическом составе. Здесь можно найти датасеты начиная с анализа данных модели Красного моря до исследования температуры и течений над узким южным калифорнийским шельфом.
Набор данных цифр языка жестов — Турция, Анкара, Айранджи, Анадолу. Набор данных о языке жестов средней школы.
Качество красного вина — простой и понятный практический набор данных для регрессионного или классификационного моделирования.
Таблицы английской футбольной премьер-лиги (1968-2019).
HotspotQA Dataset — датасет с вопросами-ответами, позволяющий создавать системы для ответов на вопросы более понятным способом.
xView — один из самых больших общедоступных наборов воздушных снимков земли. Он содержит изображения различных сцен со всего мира, аннотированных с помощью ограничительных рамок.
Labelme — Большой датасет аннотированных изображений.
ImageNet — Датасет изображений для новых алгоритмов, организованный в соответствии с иерархией WordNet, в которой сотни и тысячи изображений представляют каждый узел иерархии.
LSUN. — датасет изображений, разбитых по сценам и категориям с частичной разметкой данных.
MS COCO — крупномасштабный датасет для обнаружения и сегментации объектов.
COIL100 — 100 разных объектов, изображённых под каждым углом в круговом обороте.
Visual Genome — датасет с ~100 тыс. подробно аннотированных изображений.
Google’s Open Images. — коллекция из 9 миллионов URL-адресов к изображениям, «которые были помечены метками, охватывающими более 6000 категорий» под лицензией Creative Commons.
Labelled Faces in the Wild — набор из 13 000 размеченных изображений лиц людей для использования приложений, которые предполагают использование технологии распознавания лиц.
Stanford Dogs Dataset — содержит 20 580 изображений из 120 пород собак.
Indoor Scene Recognition. — датасет для распознавания интерьера зданий. Содержит 15 620 изображений и 67 категорий.
Oxford’s Robotic Car — более 100 повторений одного маршрута по Оксфорду, заснятого в течение года. В датасет попали разные комбинации погодных условий, трафика и пешеходов, а также более длительные изменения вроде дорожных работ.
Cityscape Dataset — большой датасет, содержащий записи ста уличных сцен в 50 городах.
KUL Belgium Traffic Sign Dataset — более 10 000 аннотаций тысяч разных светофоров в Бельгии.
LISA Laboratory for Intelligent & Safe Automobiles — датасет с дорожными знаками, светофорами, распознанными средствами передвижения и траекториями движения.
Bosch Small Traffic Light Dataset — датасет с 24 000 аннотированных светофоров.
WPI datasets — датасет для распознавания светофоров, пешеходов и дорожной разметки.
Berkeley DeepDrive — огромный датасет для автопилотов. Он содержит более 100 000 видео с более чем 1100 часами записей вождения в разное время дня и в различных погодных условиях.
MIMIC-III — датасет с обезличенными данными о состоянии здоровья ~40 000 пациентов, находящихся на интенсивной терапии (демографическими данными, показатели жизнедеятельности, лабораторными анализами и лекарствами).
Amazon Reviews — Содержит около 35 млн отзывов с Amazon за 18 лет. Данные включают информацию о продукте и пользователе, оценки и сам текст отзыва.

Полезные ссылки по поиску датасетов:

Конечно же Kaggle — место встречи всех любителей соревнований по машинному обучению.
Google Dataset Search — поиск датасетов по всей сети интернет. Также, при необходимости можно добавить свои наборы данных.
Machine Learning Repository — набор баз данных, теорий предметной области и генераторов данных, которые используются сообществом машинного обучения для эмпирического анализа алгоритмов машинного обучения.
VisualData — поиск датасетов для машинного зрения, с удобной классификацией по категориям.
DATA USA — полный набор по общедоступным данным США c визуализацией, описанием и инфографикой.

На этом наша короткая подборка подошла к концу. Если у кого-то есть, что дополнить или поделиться — пишите в комментариях.

Всем знаний!

Подпишись на канал «Нейрон» в Телеграме ― там свежие статьи и новости из мира науки о данных появляются каждую неделю. Спасибо всем, кто помогает с полезными ссылками, особенно Игорю Мариарти, Андрею Бондаренко и Матвею Кочергину.

Источник: https://habr.com/ru/post/452392/

Вернуться к списку

Интересные статьи

Что посмотреть на (почти уже не) карантине? Подборка материалов от Технострима (часть 7)

Продолжаем нашу подборку интересных материалов (1, 2, 3, 4, 5, 6). На этот раз предлагаем послушать курс об алгоритмах интеллектуальной обработки больших объёмов данных и два новы...

Ренессанс e-learning. Почему 2020 год покажет все плюсы дистанционного обучения

Электронное обучение или e-learning развивается, практикуется и совершенствуется уже много лет. Тема актуальна как в СМИ, так и среди научного и образовательного сообществ. С начала 2020 года дис...

Подборка классных технических докладов с конференции Chaos Communication Camp 2019

С 21 по 25 августа в Германии проходил крупнейший хакерский фестиваль Chaos Communication Camp. Он организуется каждые четыре года, и, как в предыдущий раз, площадкой для проведения стал и...

Подборка сервисов на основе ИИ, которые облегчат вам жизнь уже сегодня (1/3)

Привет, читатель. Думаю, что ненужно рассказывать в который раз о том, что такое искусственный интеллект, какую пользу он несёт и для чего нужен. Перейду сразу к делу. Ниже собрал подборку сервис...

Как включить резервное копирование в Bitrix

С версии 12.0 в Bitrix Framework доступно создание резервных копий в автоматическом режиме. Задание параметров автоматического резервного копирования производится в Административной части на странице ...