Почему важна разметка данных: в основе ChatGPT лежит труд людей

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!


Чат-боты стали неотъемлемой частью жизни, они в равной степени помогают нам и в работе, и в развлечениях. Одним из примеров таких ботов является ChatGPT компании OpenAI — обученная в беспрецедентных масштабах языковая модель, способная генерировать похожие на человеческие ответы на широкий спектр промтов. ChatGPT быстро набрал популярность, продемонстрировав мощь ИИ, и привлёк внимание общественности к этой сфере. Однако хотя его успех часто связывают с лежащими в его основе современными технологиями, многие недооценивают человеческий труд, вложенный в создание ChatGPT.

Предисловие: ChatGPT и его влияние


ChatGPT — это генеративный предобученный трансформер (Generative Pre-trained Transformer, GPT), разработанный OpenAI. Первая его версия появилась в 2019 году, быстро обретя популярность благодаря способности генерации напоминающих человеческие ответы на текстовые промты. Модель была обучена на огромном датасете из более чем восьми миллионов веб-страниц, что позволило ей изучить нюансы языков и генерировать ответы, которые часто неотличимы от человеческих.

Успех ChatGPT имел глубокое влияние на сферу ИИ, продемонстрировав мощь предварительно обученных на крупных датасетах моделей и вдохновив исследователей и инженеров на исследование потенциала моделей на основе GPT в широком спектре применений. Кроме того, он привлёк внимание медиа, что позволило нам лучше понять потенциал использования ИИ в обществе.

Разметка данных: ключ к успеху ChatGPT


Однако несмотря на то, что успех ChatGPT часто связывают с его современными технологиями, люди часто недооценивают человеческие усилия, приложенные к созданию модели. Важнейшим аспектом этого процесса была разметка данных — процесс аннотирования крупных датасетов содержательной информацией.

Разметка данных играет критически важную роль в разработке языковых моделей наподобие ChatGPT, поскольку помогает модели понять взаимосвязи между разными словами и понятиями в тексте. Без разметки данных модель испытывала бы трудности с пониманием контекста промта и с генерацией соответствующего ответа.

Для обучения ChatGPT компания OpenAI использовала труд команды аннотаторов, размечавших огромный датасет из более чем восьми миллионов веб-страниц. Этот процесс заключается в чтении огромных объёмов текста и в аннотировании его информацией о взаимосвязях различных слов и понятий. Затем эта информация применяется для тонкой настройки модели, позволяющей ей генерировать ответы, напоминающие человеческие.

Вот несколько примеров типов аннотаций, необходимых для обучения модели наподобие ChatGPT:

  1. Распознавание именованных сущностей (Named Entity Recognition, NER): выявление и разметка в тексте именованных сущностей, например, людей, организаций, мест и событий.
  2. Разметка частей речи (Part-of-Speech Tagging, POS): разметка частей речи для каждого слова в тексте, например, существительных, глаголов, прилагательных и так далее.
  3. Анализ эмоционального настроя (Sentiment Analysis): разметка эмоционального настроя, выраженного в тексте, например, положительного, отрицательного или нейтрального.
  4. Разрешение кореференции (Coreference Resolution): выявление и разрешение отсылок на сущности в тексте, например, когда местоимение относится к ранее упомянутой сущности.
  5. Выявление взаимосвязей (Relationship Identification): выявление взаимосвязей между сущностями в тексте, например, «Джон работает CEO в компании XYZ».

Такие аннотации обеспечивают модели глубокое понимание взаимосвязей между словами и понятиями в тексте, позволяя ей генерировать ответы, более близкие к человеческим. Труд аннотаторов по созданию этих аннотаций был очень важен для успеха ChatGPT, он подчёркивает важность человеческого труда в разработке современных моделей ИИ.

Важность человеческого труда в разработке ИИ


Важность разметки данных в разработке ChatGPT подчёркивает критичность применения человеческого труда в создании моделей ИИ. Хотя ИИ имеет потенциал автоматизации множества задач, разработка современных моделей наподобие ChatGPT требует работы опытной команды аннотаторов, инженеров и исследователей.

По-прежнему ли важен труд человека в разработке ChatGPT?


Роль человеческого труда в разработке ChatGPT далеко не исчерпана. Хотя модель существенно развила свои способности в генерации ответов, похожих на человеческие, всё равно существуют области, в которых для совершенствования и улучшения модели по-прежнему требуется человеческий опыт; особенно это справедливо для специализированных предметных областей и языков.

Например, люди могут предоставлять критическую обратную связь о результатах работы модели, помогая выявлять и устранять ошибки и перекосы. Живых аннотаторов также можно использовать для создания новых датасетов, позволяющих модели обучаться новым понятиям и взаимосвязям, ещё сильнее расширяя её возможности. Кроме того, людей можно привлекать к валидации результатов работы модели и проверке её соответствия этическим и моральным стандартам, например, отсутствию генерации вредного или оскорбительного содержимого. Эти примеры показывают, что роль человеческого опыта в разработке и совершенствовании ChatGPT остаётся критически важным компонентом его успеха.

Заключение


Хотя успех ChatGPT часто связывают с его современными технологиями, не стоит недооценивать человеческий труд, приложенный к созданию модели. Разметка данных — критически важный аспект разработки модели, а работа аннотаторов была играла важную роль в осознании моделью взаимосвязей между различными словами и понятиями в тексте. Важность человеческого труда в разработке ИИ подчёркивает необходимость непрерывного взаимодействия между людьми и машинами в процессе исследования потенциала ИИ во влиянии на общество.
Источник: https://habr.com/ru/articles/766402/


Интересные статьи

Интересные статьи

Почему люди понимают линейные рисунки? Почему мы мгновенно узнаём объекты на линейных рисунках, хотя они не относятся к явлениям естественного мира? Многие исследования показывают, что люди, никогда р...
В этой статье посмотрим как можно влиять на так называемые «галлюцинации» ChatGPT.А что такое эти «галлюцинации»? По сути это придумывание фактов нейронной сетью, ну или ...
В 1 части статьи Почему повышение точности прогноза не гарантирует повышение прибыли мы начали говорить о переоценке точности прогноза и его прямом влиянии на конечную прибыль компании. Если вы еще не...
Я не параноик или сторонник теории заговора, но я внимательно читаю пользовательские соглашения и если они меня чем-то не устраивают, то просто не пользуюсь такими сервисами. На моем смартфоне почти н...
Прим. перев.: эта шуточная статья, которую по праву охарактеризовали как иллюстрацию «SEO-driven development», нашла очень большой отклик на Reddit и других ресурсах. Соглашаясь с акт...