Почему важна разметка данных: в основе ChatGPT лежит труд людей

Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!

Чат-боты стали неотъемлемой частью жизни, они в равной степени помогают нам и в работе, и в развлечениях. Одним из примеров таких ботов является ChatGPT компании OpenAI — обученная в беспрецедентных масштабах языковая модель, способная генерировать похожие на человеческие ответы на широкий спектр промтов. ChatGPT быстро набрал популярность, продемонстрировав мощь ИИ, и привлёк внимание общественности к этой сфере. Однако хотя его успех часто связывают с лежащими в его основе современными технологиями, многие недооценивают человеческий труд, вложенный в создание ChatGPT.

Предисловие: ChatGPT и его влияние

ChatGPT — это генеративный предобученный трансформер (Generative Pre-trained Transformer, GPT), разработанный OpenAI. Первая его версия появилась в 2019 году, быстро обретя популярность благодаря способности генерации напоминающих человеческие ответы на текстовые промты. Модель была обучена на огромном датасете из более чем восьми миллионов веб-страниц, что позволило ей изучить нюансы языков и генерировать ответы, которые часто неотличимы от человеческих.

Успех ChatGPT имел глубокое влияние на сферу ИИ, продемонстрировав мощь предварительно обученных на крупных датасетах моделей и вдохновив исследователей и инженеров на исследование потенциала моделей на основе GPT в широком спектре применений. Кроме того, он привлёк внимание медиа, что позволило нам лучше понять потенциал использования ИИ в обществе.

Разметка данных: ключ к успеху ChatGPT

Однако несмотря на то, что успех ChatGPT часто связывают с его современными технологиями, люди часто недооценивают человеческие усилия, приложенные к созданию модели. Важнейшим аспектом этого процесса была разметка данных — процесс аннотирования крупных датасетов содержательной информацией.

Разметка данных играет критически важную роль в разработке языковых моделей наподобие ChatGPT, поскольку помогает модели понять взаимосвязи между разными словами и понятиями в тексте. Без разметки данных модель испытывала бы трудности с пониманием контекста промта и с генерацией соответствующего ответа.

Для обучения ChatGPT компания OpenAI использовала труд команды аннотаторов, размечавших огромный датасет из более чем восьми миллионов веб-страниц. Этот процесс заключается в чтении огромных объёмов текста и в аннотировании его информацией о взаимосвязях различных слов и понятий. Затем эта информация применяется для тонкой настройки модели, позволяющей ей генерировать ответы, напоминающие человеческие.

Вот несколько примеров типов аннотаций, необходимых для обучения модели наподобие ChatGPT:

Распознавание именованных сущностей (Named Entity Recognition, NER): выявление и разметка в тексте именованных сущностей, например, людей, организаций, мест и событий.
Разметка частей речи (Part-of-Speech Tagging, POS): разметка частей речи для каждого слова в тексте, например, существительных, глаголов, прилагательных и так далее.
Анализ эмоционального настроя (Sentiment Analysis): разметка эмоционального настроя, выраженного в тексте, например, положительного, отрицательного или нейтрального.
Разрешение кореференции (Coreference Resolution): выявление и разрешение отсылок на сущности в тексте, например, когда местоимение относится к ранее упомянутой сущности.
Выявление взаимосвязей (Relationship Identification): выявление взаимосвязей между сущностями в тексте, например, «Джон работает CEO в компании XYZ».

Такие аннотации обеспечивают модели глубокое понимание взаимосвязей между словами и понятиями в тексте, позволяя ей генерировать ответы, более близкие к человеческим. Труд аннотаторов по созданию этих аннотаций был очень важен для успеха ChatGPT, он подчёркивает важность человеческого труда в разработке современных моделей ИИ.

Важность человеческого труда в разработке ИИ

Важность разметки данных в разработке ChatGPT подчёркивает критичность применения человеческого труда в создании моделей ИИ. Хотя ИИ имеет потенциал автоматизации множества задач, разработка современных моделей наподобие ChatGPT требует работы опытной команды аннотаторов, инженеров и исследователей.

По-прежнему ли важен труд человека в разработке ChatGPT?

Роль человеческого труда в разработке ChatGPT далеко не исчерпана. Хотя модель существенно развила свои способности в генерации ответов, похожих на человеческие, всё равно существуют области, в которых для совершенствования и улучшения модели по-прежнему требуется человеческий опыт; особенно это справедливо для специализированных предметных областей и языков.

Например, люди могут предоставлять критическую обратную связь о результатах работы модели, помогая выявлять и устранять ошибки и перекосы. Живых аннотаторов также можно использовать для создания новых датасетов, позволяющих модели обучаться новым понятиям и взаимосвязям, ещё сильнее расширяя её возможности. Кроме того, людей можно привлекать к валидации результатов работы модели и проверке её соответствия этическим и моральным стандартам, например, отсутствию генерации вредного или оскорбительного содержимого. Эти примеры показывают, что роль человеческого опыта в разработке и совершенствовании ChatGPT остаётся критически важным компонентом его успеха.

Заключение

Хотя успех ChatGPT часто связывают с его современными технологиями, не стоит недооценивать человеческий труд, приложенный к созданию модели. Разметка данных — критически важный аспект разработки модели, а работа аннотаторов была играла важную роль в осознании моделью взаимосвязей между различными словами и понятиями в тексте. Важность человеческого труда в разработке ИИ подчёркивает необходимость непрерывного взаимодействия между людьми и машинами в процессе исследования потенциала ИИ во влиянии на общество.

Источник: https://habr.com/ru/articles/766402/

Вернуться к списку

Интересные статьи

Почему распознавание краёв не объясняет линейного рисунка

Почему люди понимают линейные рисунки? Почему мы мгновенно узнаём объекты на линейных рисунках, хотя они не относятся к явлениям естественного мира? Многие исследования показывают, что люди, никогда р...

ChatGPT: влияем на галлюцинации или как потопаешь, так и полопаешь

В этой статье посмотрим как можно влиять на так называемые «галлюцинации» ChatGPT.А что такое эти «галлюцинации»? По сути это придумывание фактов нейронной сетью, ну или ...

Почему повышение точности прогноза не гарантирует повышение прибыли. Часть 2

В 1 части статьи Почему повышение точности прогноза не гарантирует повышение прибыли мы начали говорить о переоценке точности прогноза и его прямом влиянии на конечную прибыль компании. Если вы еще не...

Персональные данные — почему они всем так нужны (кроме нас)

Я не параноик или сторонник теории заговора, но я внимательно читаю пользовательские соглашения и если они меня чем-то не устраивают, то просто не пользуюсь такими сервисами. На моем смартфоне почти н...

Почему мы в $ИЗВЕСТНОЙ_КОМПАНИИ перешли на $РАСКРУЧЕННУЮ_ТЕХНОЛОГИЮ

Прим. перев.: эта шуточная статья, которую по праву охарактеризовали как иллюстрацию «SEO-driven development», нашла очень большой отклик на Reddit и других ресурсах. Соглашаясь с акт...