Сравнение приложений, работающих на основе GPT, для обработки и анализа текстов

Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!

Как показывает практика работы с ChatGPT, получение достоверной информации, базирующейся на идентифицируемых источниках, непосредственно от самой LLM очень проблемно. Информация, которую получает пользователь нуждается в пристальной проверке и контроле. «Галлюцинации» ChatGPT стали притчей во языцех и вызывают отторжение. Спасение многим пользователям видится в использовании возможностей ChatGPT и его аналогов для извлечения и обработки информации из конкретного источника или источников.

То есть востребованным направлением использования LLM типа ChatGPT является анализ текстов, предоставляемых самим пользователем, с целью:

Извлечения наиболее важной интересной для потребителя информации.
В том числе из текстов на иностранном языке.
Сравнения информации в разных источниках.
Получение текстовых и иных данных из наборов однотипных текстов (договоры, протоколы и т. п.) для дальнейшего анализа.
Преобразования текстов в виде: 1) автореферирования, суммаризации; 2) изменения данных в формальных документах 3) создания учебных материалов и т.д.
Мета‑анализа источников.
Использования в прочих задачах, связанных с созданием и работой со своей базой знаний (как принято говорить), что актуально для всей гуманитарики как таковой и даже для литературного творчества (см. историю работы Солженицына над «Красным колесом»).

Возможность обработки вводимого текста упирается в ограничение моделей GPT. В запросе‑промте ChatGPT могут использовать до 4097 токенов, причем в сумме и на запрос и на ответ. Это составляет в среднем 3000 слов на английском, а на русском в несколько раз меньше. В GPT4 декларирована возможность работы с 32 тысячами токенов информации, но это тоже не спасает.

В январе 2023 г. заработал первый известный мне ресурс ChatPDF, который реализовал обработку файлов формата pdf объемом до 200 стр. К марту появились еще несколько подобных.

Общий подход к решению проблемы анализа большого документа приведен в ресурсе PDF GPT:

Приложение интеллектуально разбивает документ на более мелкие фрагменты и использует мощный сетевой кодировщик глубокого усреднения для создания вложений.
Семантический поиск сначала выполняется в вашем PDF‑контенте, и наиболее релевантные вложения передаются в Open AI.
Пользовательская логика генерирует точные ответы. В возвращаемом ответе может даже указываться где находится информация, что повышает доверие к ответам и помогает быстро найти соответствующую информацию.
Ответы намного лучше, чем непосредственные ответы Open AI.

На каких моделях GPT работают эти приложения, разработчики обычно не раскрывают, но после апробации 2–3 я обнаружил, что их ответы существенно разнятся по качеству. Следовательно, результат зависит не только от модели GPT, но и от приложения‑прокладки, которой я скармливаю интересный мне текст. Возникло желание как‑то их протестить.

Ниже представлены результаты сравнения и тестирования следующих инструментов‑приложений:

ChatPDF
PDF2gpt
PDF ChatBot
Humata

Пробовались и другие приложения (DOCU TALK, Askwise, Askcorpora), но были забракованы как с точки зрения их функциональности, так и доступности.

Вот с доступности мы и начнем.

Ниже приведена таблица, из которой ясно, что на сегодняшний момент наиболее доступны PDF2gpt и PDF ChatBot, но вполне можно пользоваться и двумя другими.

Табл. 1. Услуги при бесплатном и платном использовании

Инструмент	Бесплатно	Минимальная плата, месяц	Дополнительные условия
ChatPDF	120 стр. Файл до 10 МБт 3 файла в день 50 вопросов в день	$5 2000 стр. 32 Мбт 50 файлов в день 1000 вопросов в день	Требование vpn
Humata	60 стр. Вопросы неограниченно	$15 Неогр. вопросы, файлы 250 стр. + 0.01 за стр.	Требование vpn Регистрация по e-mail (gmail.com принимает)
PDF2gpt	Бесплатно. Отсутствует информация об ограничениях	нет	нет
PDF ChatBot	Кол-во документов не ограничено До 20 МБт в pdf-док-те	нет	нет

Также необходимо отметить дополнительные и уникальные опции каждого из приложений:

ChatPDF: сохранение истории чатов, возможность продолжения сохраненного чата.
Humata: библиотека промтов, два окна: диалог и документ, подсветка использованной для получения ответа информации в документе.
PDF2gpt: оригинальный регламент: сначала задается промт, а потом под промт загружается файл, два режима: 1) суммаризация; 2) отдельные вопросы.
PDF ChatBot: можно скачать историю чата.

Далее было проведено 2 тестирования-эксперимента для оценки функциональности приложений для 1) суммаризации; 2) извлечения информации.

1. Суммаризация

Пожалуй, самое распространенное на данный момент применение инструментов GPT для анализа файлов — это получение краткого содержания текста — резюмирование или суммаризация. Поэтому мы достаточно поверхностно проверили выбранные инструменты на подобной задаче. В качестве статьи для анализа взята недавняя статья о применении ChatGPT в образовании. «ChatGPT for Good? On Opportunities and Challenges of Large Language Models for Education» Enkelejda Kasneci, Kathrin Sessler, Stefan Kuchemann & et January 2023 DOI:10.35 542/osf.io/5er8f. Статья на английском, ответы мы будем получать на русском. В статье примерно 9000 слов и 12 страниц.

Запрос был сформулирован просто:

Please summarize the contents of this article. The volume of the summary is approximately 1 page. Summary in Russian (прошу изложить кратко содержание этой статьи. Объем резюме примерно 1 страница. Резюме на русском языке).

Для оценки и сравнения полученных резюме из оригинальной аннотации статьи были выделены ключевые моменты. Их оказалось 7. Для краткости не буду приводить их список в этой статье.

Результат:

Ни одно из резюме по всему документу не только не достигает по объему страницы, но не превышает одного небольшого абзаца, число слов от 57 до 94-х.
Ни одно из резюме не отразило все 7 ключевых моментов, но каждая из них отметила по 4 позиции, причем без прямых совпадений.
Несмотря на равный результат по критерию «ключевые моменты» одно из приложений по этому тесту заслуживает первое место. Это PDF2gpt. Дело в том, что помимо краткого резюме инструмент суммаризует каждый из разделов, на которые он разбивает исходную статью и приводит их по отдельности. В данном случае текст разбивается на равные части (примерно по 1500 слов в русском варианте). Каждое резюме‑ответ содержит 100–150 слов и соответствует содержанию частей, хотя, на мой взгляд, сильно его «усредняет». При этом «сшивать» их надо вручную, т.к. могут быть даже не окончены предложения. Тем не менее, только этот инструмент в сумме дал резюме на запрашиваемую страницу.

Таким образом в тесте на суммаризацию побеждает PDF2gpt.

2. Извлечение информации

Для тестирования этого функционала на вход четырех приложений подавался один и тот же документ, делался одинаковый запрос и ответы сравнивались с исходником и между собой. Для статистики таких документов было 10, они были примерно однотипны по содержанию и объему. Это были протоколы допросов в НКГБ бывших советский военнопленных из Молотовской (Пермской) области. Выбор был обусловлен работой автора над серией статей о немецкий лагерях для военнопленных.

Запрос-промт в каждом случае был следующим:

Дай короткий и точный ответ из личных данных протокола допроса на первые 5 вопросов. На вопросы 6 и 7 дай развернутые и полные ответы

Отвечать нужно только по тексту файла. Отвечать на русском языке.

1. Фамилия, имя, отчество допрашиваемого

2. Год рождения

3. Где он проживает

4. Кем и где работает

5. Национальность

6. Когда и при каких обстоятельствах он попал в плен

7. В каких лагерях для военнопленных побывал допрашиваемый с момента пленения до освобождения или окончания войны

Нумеруй ответы

О вопросах и сложностях ответов на них:

1. Вопросы задавались «пакетом» и также пакетом получался ответ.

2. Пять вопросов биографические: ФИО, год рождения, где проживает, кем и где работает, национальность. В большинстве протоколов ответы на эти вопрос в явном виде сгруппированы в биографическом блоке или в анкетной части вместе с другими подобными. Но даже в этом случае может возникнуть неоднозначность. Например, в ответе на вопросы «где проживает, кем и где работал» информация может быть на текущий момент, до призыва в армию, обе вместе — какую взять? Место проживания часто не совпадает с местом допроса (которое также фиксируется). В двух документах биографические данные даны в примечаниях и именно для них получено больше всего ошибок по этому типу вопросов.

3. Шестой вопрос более сложный (когда и при каких обстоятельствах он попал в плен). Здесь необходимо выделить событие во времени и пространстве и обстоятельства при которых оно произошло. С одной стороны, задача облегчается тем, что, как правило, этот вопрос задает следователь и ответ зафиксирован в документе, но достаточно часто ответ пространен, непоследователен и размыт. В ряде случаев ответ на этот вопрос разбит на несколько частей.

4. Седьмой вопрос о лагерях пленения наиболее сложен. Фактически нужно собрать в один ответ последовательно несколько локаций о которых сообщает допрашиваемый, выделив именно лагеря для военнопленных, которые могут в документе фигурировать как шталаги, концлагеря, лагеря в/пл и т. д. Еще одним сложным моментом является понимание временных рамок — от момента пленения до освобождения (см. ниже об этом).

5. И, наконец, еще одним осложняющим ответ моментом, является ограниченность объема ответа, особенно у некоторых приложений (например PDF ChatBot, Humata).

Были зафиксированы следующие виды ответов:

a. Верные ответы. Их можно разделить на положительные и отрицательные. При положительном ответе выдается информация верная, точная и полная, которая содержится в анализируемом документе. По первым 5-ти вопросам верность и полнота однозначны. По 6-му вопросу: верно и полно должны передаваться время и локация (если есть) и значимая информация об обстоятельствах пленения. По 7-му вопросу передаются верно все или почти все локации, которые могут быть отнесены в нацистским лагерям. К сожалению, отнюдь не всегда понимаются временные рамки «до освобождения из плена» и добавляются локации СССР. Мы не выбрасываем такой ответ из верных. Под отрицательным верным ответом понимается верный ответ о том, что такой информации нет в документе. Как известно, ответ такого рода для ChatGPT самый сложный, но радует, что такое при обработке введенного файла встречается.

b. Неполный ответ — дается только часть ответа. Особенно характерен для вопросов 7 и 6. Так, очень часто перечисляются не все локации пленения, или не приводятся обстоятельства пленения. Но даже для биографических вопросов наблюдалось приведение только инициалов, хотя в документе есть и имя и отчество.

c. Отсутствие ответа и ложноотрицатальный ответ (ЛО). Было несколько случаев для PDF ChatBot и Humata когда ответ на 7-й вопрос отсутствовал, поскольку ИИ «увлекся» ответом на вопрос 6 и использовал на это весь ограниченный объем общего ответа. Ложноотрицательный ответ — информация в документе есть, но приложение утверждает, что этой информации нет. Он достаточно часто встречается, особенно для некоторых приложений (см. таблицу сравнения), в том числе и для биографической информации, если она не приведена в явном виде, а, скажем, в примечаниях к протоколу.

e. Галлюцинация (галл) — дается ответ в виде информации, которой нет в исходнике или явно искаженная информация источника (например, про пленного Факарова, который попал в плен в 1941 году в Латвии, утверждается, что он был пленен после захвата немцами Финляндии, хотя это прямо противоречит информации источника). В одном ответе инструмент ChatPDF выдал полную «галлюцинацию» по всем вопросам, то есть выдумано все от фамилии, до локаций лагерей военнопленных. Во всех остальных случаях галлюцинации наблюдались в ответах на единичные вопросы.

f. Попытки логического выбора. Судя по всему, когда ИИ не находит прямого ответа по причине его пропуска или неоднозначности информации, он начинает искать выход из ситуации. И, на наш взгляд, можно выделить 2 типа решений. Первое — это «галлюцинации» (см. выше, я бы назвал их скорее «фантазии»). А вот второе что‑то промежуточное между ложью и истиной, наиболее вероятностное для ИИ. Например, дается ответ на другой, но близкий вопрос (не перечисляет лагеря военнопленных, а дает информацию когда и как пленный освобожден или фамилии с кем он был в лагерях). Или, если нет информации о месте, где проживает допрашиваемый — меняется глагол «проживает», на «проживал» и дается место рождения (уроженец) или место допроса. Выказываются предположения, что жена живет там‑то, а допрашиваемый по месту допроса и так далее. Я бы назвал этот тип ответа «вероятным ответом». Так может поступить человек, когда ответить очень хочет, но точного ответа нет. Некоторые из таких ответов я засчитываю как верные вероятные В(в), а некоторые как неверные.

В таблице 2 обобщены результаты ответов на все 7 вопросов.

Таблица 2. Ответы на вопросы по извлечению информации из 10 документов

Вопрос	ChatPDF	PDF2gpt	PDF ChatBot	Humata
Фамилия, имя, отчество допрашиваемого	8 верных* 2 галл	8 верных, 2 неполных	8 верных, 1 неполный,1ЛО	7 верных, 2 неполных 1 неверный
Год рождения	7 верных, 1 галл, 1ЛО, 1неверный	10 верных	10 верных	7 верных, 3ЛО
Где он проживает	8 верных, 2 вероятных	8 верных, 2 вероятных	5 верных, 3 вероятных, 2 неполных	6 верных, 2 вероятных, 2 неполных
Кем и где работает	7 верных, 2ЛО, 1 галл	8 верных, 1ЛО, 1 галл	9 верных, 1ЛО	8 верных, 1 вероятный, 1ЛО
Национальность	7 верных, 1ЛО, 1галл, 1неверный	10 верных	10 верных	9 верных, 1ЛО
Когда и при каких обстоятельствах он попал в плен	2 верных, 2 неполных, 3ЛО, 3галл	9 верных, 1 неполный	8 верных, 1 неполный, 1галл	6 верных, 2 неполных, 1ЛО, 1 галл
В каких лагерях для военнопленных побывал допрашиваемый с момента пленения до освобождения или окончания войны	1 верный, 1 неполный, 6ЛО, 2 галл	8 верных, 1 неполный, 1 вероятный	4 верных, 3 неполных, 3ЛО	4 верных, 2 неполных, 2 ЛО, 2галл, 1 неверный

* серой заливкой помечены в целом верные ответы

Выводы по таблице 2:

Наиболее точные ответы даются на «биографические вопросы» - информация краткая и, как правило, однозначная. Здесь верные (в целом) вопросы по всем приложениям от 83% (кем работает) до 95% (где проживает). Лидерами являются PDF2gpt и PDF ChatBot, которые нередко выдают 100% верных ответов. Наиболее слабый результат показал ChatPDF
Сложные вопросы №6 и 7 в сумме по всем приложениям дают 60% верных ответов, но при этом дифференциация существенно выше. Лучший результат однозначно показывает PDF2gpt – фактически только он дает 100% в целом верных ответов как по 6-му так и по 7-му вопросу. Это очень хороший результат, учитывая, что аутсайдер ChatPDF показывает по 6-му вопросу 40%, а по 7-му всего 20% в целом верных ответов.

Общий вывод

По 3-м критериям: доступность, суммаризация и извлечение информации лучший результат показывает PDF2gpt, следом, с существенным отрывом по сложным вопросам PDF ChatBot, еще далее Humata и совсем плохо ChatPDF

В заключение как преподаватель сравнил бы работу ИИ и тестируемых приложений по анализу и извлечению информации и данных из текстов с работой студента над своей первой курсовой. Если ты как научный руководитель захочешь использовать эти данные для публикации — проверь их все. Если же не хочешь проверять — пусть студент доложит их на студенческой конференции под своим именем, не больше.

Тем не менее, считаю проведенные эксперименты с ИИ полезными для себя (для увеличения надежности промтов‑запросов) и, надеюсь, для читателей сей статьи. Не судите строго — автор ни в коей мере не является специалистом по ИИ, но, по‑сути, только гуманитарием‑любителем.

Источник: https://habr.com/ru/articles/727184/

Вернуться к списку

Интересные статьи

Создание REST aсtivity (действий) Битрикс24 с приложением-встройкой для препроцессинга параметров

У нас возникла задача добавить препроцессинг для параметров активити бизнес-процесса Битрикс24. Когда разбирались в задаче не смогли найти ни одного примера и решили выложить свой - может быть кто-ниб...

Компилятор бизнес-правил на основе деревьев выражений

На данный момент уведомления являются одним из основных инструментов маркетинга. Они позволяют бизнесу не только удерживать интерес пользователя к продукту, но и поддерживать лояльность, показывая пол...

Делаем Fischertechnik-совместимый модуль управления шаговым мотором на основе драйвера A4988 (DRV8825)

Уже давно я припас все детали, перечисленные ниже, и осталось собрать все вместе и получить модуль управления мотором для удобной установки на конструктор. Конечно, сначала мы подключили катушки шагов...

Как продолжительность смены и число одновременно обслуживаемых проектов влияют на время обработки контакта?

Если вы задавались вопросами производительности труда операторов и управления средним временем обработки контакта (Average Handling Time, AHT), то материал, который вы се...

Визуализация границ решения классификатора на основе изображений

Введение Понимание того, как классификатор разбивает исходное многомерное пространство признаков на множество целевых классов, является важным шагом для анализа любой задачи классификации и оцен...