Создаем точные датасеты для сегментации (доступны на kaggle)

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

Начнем с простого примера: как думаете, легко найти более или менее адекватный датасет, который позволил бы ну хоть как-то поработать с квадрокоптерами?

Пример одного из 10000 семплов
Пример одного из 10000 семплов

Вполне может оказаться, что среди первых достойных результатов окажется именно этот набор. Обновил его совсем недавно, увеличив примерно вдвое. Под катом больше деталей (включая парусную яхту А, которая уже в прошлом году путешествовала в несколько странном виде), но если интересны исключительно датасеты: список доступных на текущий момент (пополняется). Да, пожалуйста, напишите какие датасеты могут быть полезны именно вам.

Собственно, датасеты являются побочным результатом развития идеи детальной сегментации видеопотоков. Тестировать на очень разных реальных объектах так или иначе необходимо, а полезный результат (если он есть конечно) выбрасывать желания нет.

Все эти сложности с детальной сегментацией могут показаться совершенно лишними, до тех пор, пока вы не откроете упаковку своего любимого печенья с джемом и не найдете джема на половине печенек. Разочарование, но если задуматься о решении проблемы, то кроме как визуальной проверкой проблему не побороть. В свою очередь, это или человеческий фактор или автоматизированная система, которая так или иначе должна быть способна оценить площадь, занимаемую незаменимым джемом.

Давайте рассмотрим несколько примеров:

Печеньки с джемом и посыпкой
Печеньки с джемом и посыпкой

Возможно, будет интересно посмотреть детальнее: печеньки с джемом и без оного (кажется milka). Но задачи ведь разные, на месте печенек могут оказаться и другие уникальные объекты, ценность которых может быть далеко не самой очевидной. Собственно, по этой причине тестовые наборы (и результаты) очень разные:

Сегментация насекомых представляет определенную сложность
Сегментация насекомых представляет определенную сложность

Сложность тоже варьируется, поскольку часто важен не только сам объект, но и детали окружения. К слову, в данном посте опускаю детали реализации (в достаточной мере они раскрыты ранее), но если будет интересно расскажу подробнее, поскольку для достижения желаемого результата пришлось реализовать всю "магию" самостоятельно.

"Связанные" объекты и сложные детали
"Связанные" объекты и сложные детали

Детали в принципе очень важны и чем их больше (при условии достаточной стабильности результата) тем лучше для решения любых бизнес-задач. Следующий пример иллюстрирует как важность деталей, так и проблему стабильности:

Примеров, как и результатов, на самом деле очень много. Размещу ссылки под постом, но вернемся к основному вопросу: с чем работаете или планируете работать вы? Какие датасеты могли бы вам помочь?

В свою очередь, в новом году продолжим расширять набор доступных датасетов, среди которых появятся и яхты. Парусная яхта А была замечена с отсутствующим гиком и пока в таком виде и будет добавлена в соответствующий набор.

Парусная яхта А (Брела, 2021)
Парусная яхта А (Брела, 2021)

Детальнее на странице проекта:

Предварительные результаты
Предварительные результаты

Надеюсь не утомил примерами. В любом случае, если вы сталкивались с реальной проблемой, для решения которой можно использовать детальную сегментацию напишите.

Полезные ссылки:

  • Датасеты на Kaggle

  • Metavision.zone - страница проекта

  • Пример работы segmentation pipeline

  • Примеры на YouTube

Источник: https://habr.com/ru/post/599407/


Интересные статьи

Интересные статьи

C++ - один из языков, который можно назвать "легендарным". Его история насчитывает несколько десятилетий, принципы программирования на нем революционным образом менялись не раз, а черновик стандарта у...
Много уже говорилось о том, что SQLAlchemy - одна из самых популярных библиотек для создания схем баз данных. Сегодня рассмотрим несложный пример по созданию небольшой сх...
Часто от программистов PHP можно услышать: «О нет! Только не „Битрикс“!». Многие специалисты не хотят связываться фреймворком, считают его некрасивым и неудобным. Однако вакансий ...
Приветствую вас (лично вас, а не всех кто это читает)! Сегодня мы: Создадим приложение (навык) Алисы с использованием нового (октябрь 2019) сервиса Yandex Cloud Functions. Настроим н...
Cities: Skylines — это игра-симулятор города, обладающий достаточной сложностью, чтобы создавать в нём универсальные логические элементы. При помощи универсальных логических элементов можно постр...