5 трендов в аннотировании данных в 2021 году

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

Бум искусственного интеллекта продолжается, поэтому развиваются технологии разметки и аннотирования данных. Какой бы ни была область машинного обучения, от computer vision до автономных автомобилей, ей обычно требуется аннотировать огромное количество данных. По данным Cognilytica, рынок решений подготовки данных для машинного обучения к концу 2024 года вырастет до 3,5 миллиарда долларов. Чтобы справляться с этим растущим спросом, поставщики услуг разметки данных стратегически продумывают способы возможного масштабирования процессов аннотирования, функций инструментов и количества сотрудников с сохранением точности и качества. В этой статье мы перечислим внедряемые в рабочий процесс новшества, способные повысить его эффективность и скорость.

1. Инструменты предиктивного аннотирования


Вместе с расширением рынка искусственного интеллекта и машинного обучения растут и требования к аннотациям данных. Всё большее внимание получают инструменты предиктивного аннотирования, т.е. инструменты, позволяющие автоматически распознавать и размечать элементы на основании схожих аннотаций, созданных вручную. Например, в рабочем процессе подготовки компьютерного зрения стал бы очень ценным дополнением инструмент, способный аннотировать последующие кадры после ручного аннотирования нескольких первых кадров. Вмешательство человека всё равно может требоваться в виде мелких правок, однако в целом сэкономленные время и труд окажут огромное влияние на скорость обработки. Разработка предиктивного инструментария с широкими возможностями станет ключевым аспектом экосистемы аннотирования данных.


2. Гибко настраиваемая отчётность


Процесс аннотирования состоит из множества рабочих процессов, особенно в случае взаимодействия с крупными командами специалистов по аннотированию. Для анализа продуктивности процесса и принятия продуманных решений необходима подробная отчётность (в особенности о качестве и объёме выполненных работ). Использование API и инструментов в open source позволит полностью настраивать отчётность при помощи фильтров с возможностью подключения drag and drop. Отчёты с подробностями вплоть до уровня аннотирования сотрудника станут частью набора инструментов отчётности. Для динамического устранения колебаний в нагрузке будет использоваться мониторинг активности персонала при помощи отчётности в реальном времени и систем распределения ресурсов. Ценность таких инструментов заключается и в повышении эффективности процесса аннотирования благодаря выявлению паттернов и анализа трендов с течением времени, что позволяет экономить средства.


3. Повышение внимания к контролю качества


В будущем повысятся требования к контролю качества масштабных процессов обработки данных. Благодаря появлению новых решений для разметки данных на этапе контроля качества обучения модели будет распознаваться и обрабатываться большее количество пограничных случаев. Будут создаваться команды, занимающиеся исключительно контролем качества; они будут состоять из специалистов, имеющих глубокое понимание данных и их сути. Эти специализированные команды будут способны работать без подробных инструкций и целиком сосредоточатся на выявлении и устранении проблем в огромных наборах данных.


4. Использование узких специалистов


В процессе распространения применения ИИ на новые отрасли будет расти спрос на команды аннотирования узкоспециализированных данных. Прошедшие особый курс обучения команды будут использоваться в узкоспециализированных областях здравоохранения, финансовой отрасли и государственного сектора, постепенно наращивая свою компетентность. Узконаправленная, но глубокая специализация сотрудника, занимающегося разметкой данных, повышает эффективность всего процесса аннотирования, от освоения инструкций до времени подготовки обработанных данных.


5. Экосистема специализированных партнёров


В сфере аннотирования данных экосистема надёжных партнёров уже формируется, и в будущем она по-прежнему будет необходима. Способность быстрого выбора специализированных навыков в большой экосистеме будет критически важной задачей для реализации ИИ. Когда каждый поставщик услуг в рамках экосистемы будет предоставлять специализированную экспертизу в разметке данных, создании метаданных или в организации гибких и продуктивных рабочих процессов, понадобится меньше времени на решение уже решённых задач. Когда заказчик работает с компанией из экосистемы, она может давать ему рекомендации по оптимальным сочетаниям специализированных инструментов и навыков под конкретный проект и рабочий процесс.

Источник: https://habr.com/ru/post/573208/


Интересные статьи

Интересные статьи

Для многих начинающих исследователей данных линейная алгебра становится камнем преткновения на пути к достижению мастерства в выбранной ими профессии.В этой статье я попы...
Самой дорогой ошибкой в истории, вызванной неправильными исходными данными, считается авария ракеты Ариан-5. Суммарный урон по итогу этого случая оценивают в 0.5 миллиардов долларов в цен...
Что делать, когда хочется писать о книгах, но рубеж года уже пройден, а 2021 пока не радует новинками? Можно еще раз вспомнить достойные фантастические романы, которые вы...
Михаил Коновалов, руководитель направления отдела сопровождения интеграционных проектов ИТ-дирекции МКБ День добрый, хабровчане! Цель Систематизированный подход к управлению загрузками. Мы...
Исследователи из Microsoft и Вашингтонского университета продемонстрировали первую полностью автоматизированную систему хранения данных в искусственно созданной ДНК с возможностью считывания...