Когда мы в конце прошлого года перерабатывали свой курс по Deep Learning, чтобы сделать его более наглядным и ориентированным на кейсы из реальной бизнес-практики, мы включили в него новый модуль по разметке данных на крауд-платформе "Яндекс.Толока".
Но так как краудсорсинг -- это не единственный способ разметки, мы подготовили для новых слушателей курса перевод этой статьи из блога Lionbridge с обзором основных подходов к разметке данных. Надеемся, что и вам она будет полезна.
Качество проекта по машинного обучению напрямую зависит от того, как вы подойдете к решению 3 основных задач: сбору данных, их предварительной обработке и разметке.
Разметка – это, как правило, сложный процесс, отнимающий массу времени. Например, для систем распознавания изображений часто приходится рисовать bounding boxes вокруг объектов, а для работы с системами товарных рекомендаций и системами анализа эмоциональной окраски высказываний может потребоваться знание культурного контекста. Не забывайте еще, что массив данных может содержать десятки и более тысяч сэмплов, которым необходима разметка.
Таким образом, подход к созданию проекта машинного обучения будет зависеть от сложности поставленной задачи, объема проекта и графика его реализации. Учитывая эти факторы, мы выделили 5 основных подходов к разметке данных и привели для каждого из них аргументы за и против.
Различные способы разметки данных для машинного обучения можно отнести к следующим категориям:
In-house: как следует из названия, речь идет о разметке данных силами собственной команды аналитиков. У этого подхода целый ряд очевидных преимуществ: процесс легко контролировать и можно быть уверенным в точности и качестве работы. Однако, этот способ, скорее всего, подойдет только крупным компаний с собственным штатом дата-аналитиков.
Аутсорсинг: это хороший способ в тех случаях, когда команда для разметки данных нужна на определенный период времени. Разместив объявление на рекрутинговых сайтах или в своих соц.сетях, вы можете сформировать базу потенциальных исполнителей. Далее, в ходе интервью и тестирования определятся те, кто обладает необходимыми навыками. Это отличный вариант для формирования временной команды, но тут нужно четкое планирование и организация; новых сотрудников нужно будет обучить, чтобы они включились в работу и выполнили ее согласно требованиям. Кроме того, если у вас еще нет инструмента для разметки данных, вам нужно будет его приобрести.
Краудсорсинг: краудсорсинговые платформы – это способ решить конкретную задачу при помощи большого количества исполнителей. Так как в краудсорсинге есть исполнители из самых разных стран и их можно отфильтровать по уровню, то получается быстрый и довольно бюджетный способ. При этом краудсорсинговые платформы довольно сильно различаются с точки зрения квалификации исполнителей, контроля качества и инструментов для управления проектами. Поэтому, выбирая краудсорсинговую платформу, нужно учитывать все эти параметры.
Синтетический метод: синтетическая разметка подразумевает создание или генерирование новых данных, содержащих атрибуты, необходимые вашему конкретному проекту. Одним из способов проведения синтетической разметки является использование генеративно-состязательной сети (GAN). GAN задействует две нейронные сети (генератора и дискриминатора), которые соревнуются между собой в создании ложных данных и распознавании отличий между реальными и ложными данными. В результате вы получаете высоко-реалистичные новые данные. GAN и другие методы синтетической разметки позволяют получать абсолютно новые данные из уже существующих массивов. Этот метод высокоэффективен с точки зрения временных затрат и прекрасно подходит для получения данных высокого качества. Однако, в настоящее время, синтетические методы разметки требуют больших объемов вычислительных мощностей, что делает их весьма дорогостоящими.
«Программный метод»: предусматривает использование скриптов для автоматической разметки данных. Этот процесс позволяет автоматизировать задачи, включая разметку изображений и текстов, что позволяет значительно сократить количество исполнителей. К тому же, компьютерная программа не станет делать перерывы на отдых, а значит, вы сможете получить результаты намного быстрее. Однако, этот метод еще далек от совершенства и при программной разметке часто нужна команда контроля качества, чтобы следить за корректностью разметки данных по ходу работы.
В этой таблице мы приводим наглядное сравнение вышеописанных методов:
Достоинства | Недостатки | |
In-house | Контроль процесса Высокое качество Предсказуемый результат | Большие временные затраты |
Аутсорсинг | Возможность собрать команду под конкретную задачу | Время на обучение Планирование, организация процесса |
Краудсорсинг | Масштабируемость Глобальные задачи Скорость Стоимость работ | Трудно контролировать качество Требуются ресурсы на сбор данных о платформе |
Компании, специализирующиеся на обработке данных | Высокое качество Масштабируемость Глобальные задачи Скорость | Высокая стоимость |
Синтезирование и расширение | Эффективность по времени Можно собрать много данных для обучения | Необходимы высокие вычислительные мощности |
Программный метод | Автоматизация Скорость | Низкий уровень качества |
Каждый метод разметки имеет свои сильные и слабые стороны. Выбор наиболее оптимального метода зависит от ряда факторов: сложности сценария использования, набора данных для обучения, размера вашей компании и команды аналитиков, вашего бюджета и дедлайнов. При планировании проекта по разметке данных обязательно учитывайте все эти факторы.
-------------
Курс Deep Learning 6.0 от Newprolab стартовал 9 ноября.
Следующий курс - Deep Learning 7.0 - пройдет c 30 марта по 22 апреля 2021 года.