Почему за автоматической разметкой данных будущее?

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!


Автоматическая разметка данных — новая функция, о которой сегодня часто говорят. Некоторые даже считают её решением проблемы кропотливого и ресурсоёмкого аннотирования вручную.

Для обработки одного набора данных ручной разметкой (аннотированием) требуются многие часы. Автоматическая разметка данных предоставляет более простой, быстрый и современный способ обработки данных при помощи самого ИИ.

Как обычно обрабатывается набор данных


Самый распространённый и простой подход к разметке данных — это, разумеется, полностью ручная обработка. Живой пользователь получает набор сырых неразмеченных данных (например, изображения или видео), и ему дают задание разметить их в соответствии с перечнем правил.

Например, при обработке данных изображений наиболее распространёнными типами аннотаций являются метки классификации, ограничивающие прямоугольники, сегментация многоугольниками и ключевые точки.


Автоматическая разметка данных — сегментация в разметке данных

Метки классификации — простейший и наименее затратный способ аннотирования, для него может потребоваться всего лишь несколько секунд; в то же время точная сегментация многоугольниками может требовать по несколько минут на каждый экземпляр объектов.

Чтобы вычислить влияние ИИ-автоматизации на время разметки данных, допустим, что пользователю требуется 10 секунд на отрисовку ограничивающего прямоугольника вокруг объекта и выбор класса объекта из списка. Это допущение основывается на наших собственных эмпирических данных.

В таком случае для разметки стандартного набора данных из 100 тысяч изображений с пятью объектами на каждое изображение потребуется около 1500 человеко-часов, что эквивалентно трате примерно 10 тысяч долларов только на саму разметку данных.

Добавление уровня контроля качества для ручной проверки каждого элемента размеченных данных тоже увеличивает время подготовки. Обученному пользователю потребуется примерно одна секунда на проверку каждой аннотации ограничивающим прямоугольником, что увеличивает затраты на разметку ещё примерно на 10%.

В некоторых проектах используется контроль качества на основе консенсуса: несколько пользователей аннотируют один и тот же элемент данных, и результаты их работы объединяются/сравниваются для контроля качества. При таком рабочем процессе количество потраченных времени и денег пропорционально количеству пользователей, работающих над пересекающимися задачами для достижения консенсуса. Проще говоря, если три пользователя будут трижды размечать одно и то же изображение, вам придётся заплатить за все три аннотации.

Это даёт нам понять, что двумя самыми затратными этапами разметки данных являются:

  • Сама разметка данных
  • Её проверка для контроля качества.


Автоматическая разметка данных — акцент на контроль качества

Следовательно, важнейшая задача технологии автоматической разметки — снижение времени и разметки данных, и её проверки.

К счастью, благодаря прогрессу в сфере искусственного интеллекта и машинного обучения технология автоматической разметки прошла долгий путь. Однако не все технологии автоматической разметки одинаковы, во многих случаях наивные попытки использования ИИ приводят к тому, что требуется больше усилий людей на устранение созданных ИИ ошибок. Следовательно, нужно полностью осознавать, как выбранный ИИ влияет на весь процесс работы с данными.

Преимущества автоматической разметки


Автоматическая разметка (Auto Labeling) — достаточно новый термин в нашей сфере, но технологии, позволяющие реализовать её, развиваются с большой скоростью, что видно из большого количества инструментов, имеющихся на рынке. Что же такое автоматическая разметка данных и в чём её преимущества?

Что такое автоматическая разметка?


Автоматическая разметка — это функция инструментов аннотирования данных, использующая искусственный интеллект (ИИ) для обогащения, аннотирования или разметки набора данных. Обладающие этой функцией инструменты подкрепляют работу людей, экономя время и деньги на разметке данных для машинного обучения.

Большинство инструментов позволяет загружать предварительно аннотированные данные. Более сложные инструменты, эволюционирующие в платформы (например, инструмент плюс Software Development Kit, или SDK), позволяют использовать ИИ или добавлять в инструмент собственный алгоритм для совершенствования процесса обогащения данных путём их автоматической разметки.

Другие инструменты предоставляют модели с прогнозированием, предлагающие аннотации, которые проверяются людьми. Некоторые функции используют встроенные нейронные сети, способные обучаться на каждой созданной аннотации. Все эти функции способны экономить время и ресурсы команд, занимающихся машинным обучением, и оказывают глубокое влияние на процессы аннотирования данных.

Выдающиеся преимущества автоматической разметки


В нашей работе с организациями, использующими инструменты для аннотирования изображений в машинном обучении, мы пришли к выводу, что автоматическая разметка может быть полезна, когда она применяется в процессе аннотирования данных двумя способами:

  • Предварительное аннотирование полного набора данных или его части. Сотрудники следят за автоматизацией, контролируя, исправляя и дополняя аннотации. Автоматизация не может аннотировать всё; существуют исключения и пограничные случаи. Кроме того, она далека от идеала, поэтому необходимо планировать участие людей в контроле и устранении ошибок.
  • Снижение количества передаваемой людям работы. Модель автоматической разметки на основании конкретного случая применения, сложности задачи и других факторов может задавать уровень достоверности. Она обогащает набор данных аннотациями и отправляет аннотации с низкими оценками достоверности для контроля или исправления человеком.

Мы проводили эксперименты со временем выполнения: одна команда использовала инструменты с функцией автоматизации, а другая аннотировала те же данные вручную. В некоторых случаях автоматическая разметка обеспечивала низкокачественные результаты, увеличивавшие время, требуемое для аннотирования. В других случаях она создавала полезный фундамент для работы и снижала время выполнения задач.


Автоматическая разметка данных — метаданные

В одном эксперименте по аннотированию изображений автоматическая разметка в сочетании с обеспечиваемыми людьми контролем и улучшениями оказалась на 10% быстрее, чем полностью ручной процесс разметки. В процессе постепенного обучения эта экономия времени выросла до 40-50%.

Кроме того, автоматическая разметка имела погрешность более чем в пять пикселей при распознавании контуров автомобилей и не замечала объекты, находящиеся вдалеке от камеры. Как вы видите на изображении в начале статьи, функция автоматической разметки пометила мусорный бак как человека. Важно помнить о том, что прогнозы предварительного аннотирования основаны на существующих моделях и любые ошибки автоматической разметки отражают точность этих моделей.

Некоторые задачи уже вполне созрели для предварительного аннотирования. Например, если использовать пример из нашего эксперимента, можно применить предварительное аннотирование для разметки изображений, а команда разметчиков данных сможет определить, нужно ли изменить размеры меток/ограничивающих прямоугольников, или же полностью их удалить.

Такое снижение времени разметки может быть полезно командам, которым необходимо аннотировать изображения на попиксельном уровне сегментации.

Из экспериментов мы сделали вывод о том, что применение автоматической разметки требует творческого подхода. Мы выяснили, что наши клиенты, которым успешно удалось её использовать, готовы при необходимости экспериментировать, терпеть неудачи и модифицировать свой процесс работы.
Источник: https://habr.com/ru/post/585372/


Интересные статьи

Интересные статьи

Данные — это один из наиболее важных компонентов геопространственных технологий и, пожалуй, любой другой отрасли. К управлению данными сейчас относятся серьезно во в...
Microsoft готовит релиз Windows May 2020 Update (20H1). Это обновление будет содержать несколько приятных улучшений пользовательского интерфейса, но для разработчиков и других посвященных важнее ...
25 февраля Mozilla сделали DNS-over-HTTPS (DoH) протоколом по умолчанию в своем браузере для всех американских пользователей. В целом ИТ-сообщество встретило это решение положительно, заметив, чт...
В преддверии запуска нового потока по курсу «Data Engineer» подготовили перевод интересного материала. Обзор Мы поговорим о достаточно популярном паттерне, с помощью которого приложения ис...
Приветствую, коллеги! Однажды, разбирая входящую почту, я обратила внимание, что немалая часть вопросов клиентов касалась открытия своего ИТ-дела в Сингапуре. Наш портал специализируется н...