5 подходов к разметке данных для проектов машинного обучения

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

Когда мы в конце прошлого года перерабатывали свой курс по Deep Learning, чтобы сделать его более наглядным и ориентированным на кейсы из реальной бизнес-практики, мы включили в него новый модуль по разметке данных на крауд-платформе "Яндекс.Толока". 

Но так как краудсорсинг -- это не единственный способ разметки, мы подготовили для новых слушателей курса перевод этой статьи из блога Lionbridge с обзором основных подходов к разметке данных. Надеемся, что и вам она будет полезна.

Качество проекта по машинного обучению напрямую зависит от того, как вы подойдете к решению 3 основных задач: сбору данных, их предварительной обработке и разметке.

Разметка – это, как правило, сложный процесс, отнимающий массу времени. Например, для систем распознавания изображений часто приходится рисовать bounding boxes вокруг объектов, а для работы с системами товарных рекомендаций и системами анализа эмоциональной окраски высказываний может потребоваться знание культурного контекста. Не забывайте еще, что массив данных может содержать десятки и более тысяч сэмплов, которым необходима разметка.

Таким образом, подход к созданию проекта машинного обучения будет зависеть от сложности поставленной задачи, объема проекта и графика его реализации. Учитывая эти факторы, мы выделили 5 основных подходов к разметке данных и привели для каждого из них аргументы за и против. 

Различные способы разметки данных для машинного обучения можно отнести к следующим категориям:

In-house: как следует из названия, речь идет о разметке данных силами собственной команды аналитиков. У этого подхода целый ряд очевидных преимуществ: процесс легко контролировать и можно быть уверенным в точности и качестве работы. Однако, этот способ, скорее всего, подойдет только крупным компаний с собственным штатом дата-аналитиков. 

Аутсорсинг: это хороший способ в тех случаях, когда команда для разметки данных нужна на определенный период времени. Разместив объявление на рекрутинговых сайтах или в своих соц.сетях, вы можете сформировать базу потенциальных исполнителей. Далее, в ходе интервью и тестирования определятся те, кто обладает необходимыми навыками. Это отличный вариант для формирования временной команды, но тут нужно четкое планирование и организация; новых сотрудников нужно будет обучить, чтобы они включились в работу и выполнили ее согласно требованиям. Кроме того, если у вас еще нет инструмента для разметки данных, вам нужно будет его приобрести. 

Краудсорсинг: краудсорсинговые платформы – это способ решить конкретную задачу при помощи большого количества исполнителей. Так как в краудсорсинге есть исполнители из самых разных стран и их можно отфильтровать по уровню, то получается быстрый и довольно бюджетный способ. При этом краудсорсинговые платформы довольно сильно различаются с точки зрения квалификации исполнителей, контроля качества и инструментов для управления проектами. Поэтому, выбирая краудсорсинговую платформу, нужно учитывать все эти параметры. 

Синтетический метод: синтетическая разметка подразумевает создание или генерирование новых данных, содержащих атрибуты, необходимые вашему конкретному проекту. Одним из способов проведения синтетической разметки является использование генеративно-состязательной сети (GAN). GAN задействует две нейронные сети (генератора и дискриминатора), которые соревнуются между собой в создании ложных данных и распознавании отличий между реальными и ложными данными. В результате вы получаете высоко-реалистичные новые данные. GAN и другие методы синтетической разметки позволяют получать абсолютно новые данные из уже существующих массивов. Этот метод высокоэффективен с точки зрения временных затрат и прекрасно подходит для получения данных высокого качества. Однако, в настоящее время, синтетические методы разметки требуют больших объемов вычислительных мощностей, что делает их весьма дорогостоящими. 

«Программный метод»: предусматривает использование скриптов для автоматической разметки данных. Этот процесс позволяет автоматизировать задачи, включая разметку изображений и текстов, что позволяет значительно сократить количество исполнителей. К тому же, компьютерная программа не станет делать перерывы на отдых, а значит, вы сможете получить результаты намного быстрее. Однако, этот метод еще далек от совершенства и при программной разметке часто нужна команда контроля качества, чтобы следить за корректностью разметки данных по ходу работы.  

В этой таблице мы приводим наглядное сравнение вышеописанных методов: 

Достоинства 

Недостатки

In-house

Контроль процесса

Высокое качество

Предсказуемый результат

Большие временные затраты 

Аутсорсинг 

Возможность собрать команду под конкретную задачу

Время на обучение

Планирование, организация процесса

Краудсорсинг

Масштабируемость

Глобальные задачи

Скорость

Стоимость работ

Трудно контролировать качество

Требуются ресурсы на сбор данных о платформе 

Компании, специализирующиеся на обработке данных

Высокое качество

Масштабируемость

Глобальные задачи 

Скорость

Высокая стоимость

Синтезирование и расширение

Эффективность по времени

Можно собрать много данных для обучения

Необходимы высокие вычислительные мощности

Программный метод

Автоматизация 

Скорость 

Низкий уровень качества

Каждый метод разметки имеет свои сильные и слабые стороны. Выбор наиболее оптимального метода зависит от ряда факторов: сложности сценария использования, набора данных для обучения, размера вашей компании и команды аналитиков, вашего бюджета и дедлайнов. При планировании проекта по разметке данных обязательно учитывайте все эти факторы. 

-------------

Курс Deep Learning 6.0 от Newprolab стартовал 9 ноября.

Следующий курс - Deep Learning 7.0 - пройдет c 30 марта по 22 апреля 2021 года.

Источник: https://habr.com/ru/company/newprolab/blog/527198/


Интересные статьи

Интересные статьи

Могут ли современные системы беспилотной езды обнаруживать и распознавать окружающие объекты, а затем предсказывать их поведение? Могут ли они понимать значение спонтанных событий и д...
На этой неделе мы посмотрим, как можно работать чуточку быстрее, чем вчера. Разбираемся и внедряем в свои проекты пайплайны реактивного программирования, автоматически потрошим тексты и...
В начале работы над новым React-проектом рекомендуется сформулировать инструкции, следуя которым можно будет создать приложение, хорошо поддающееся масштабированию. В этом мате...
На дворе 2020 год и фоновым шумом вы уже привыкли слышать: «Кубернетес — это ответ!», «Микросервисы!», «Сервис меш!», «Сесурити полиси!». Все вокруг бегут в светлое будущее. Подход...
Original english version of this article is here. Это название доклада Alex Viscreanu на Moscow Python Conf ++. До выступления еще две недели, но я, конечно, уже обо всем расспросил Алекса и п...