GPT-4, Claude 2 и Llama 2: какая языковая модель не отлынивает от ответов

Аналитическая компания Arthur AI провела тестирование моделей искусственного интеллекта, представленных Meta, OpenAI, Cohere и Anthropic. В статье разбираем, какие из них наиболее склонны к вымыслу или галлюцинациям.

Суть эксперимента

Тестировали модели:

GPT-3.5 (~175 млрд параметров) и GPT-4 (~1,76 триллиона параметров) от OpenAI;
Claude-2 от Anthropic (# неизвестно);
LLaMA-2 (70 млрд параметров) от Meta;
Command от Cohere (~50 млрд параметров).

Для исследования составили набор вопросов в трех категориях: задачи по комбинаторной математике, вопросы о президентах США и политических лидерах Марокко. Основная цель была в том, чтобы проверить способность моделей к многоэтапному рассуждению при формировании ответа.

Результаты исследования

Каждый вопрос задавали по несколько раз, потому что LLM могут отвечать на один и тот же вопрос по-разному: правильно, неверно, не совсем точно или вообще не давать ответ.

*Статистика ответов LLM на вопросы во время эксперимента*

Результаты показывают, что GPT-4 от OpenAI является наилучшим инструментом для решения математических задач. Claude 2 от Anthropic наиболее осведомлен о своих ограничениях и потенциальных ошибках. Command AI от Cohere часто допускает галлюцинации, в то время как Llama 2 от Meta показал средние результаты в проведенных тестах.

*В комбинаторике GPT-4 показал лучшие результаты, за ним следовал Claude-2*

Claude-2 показывает наименьшее количество галлюцинаций и больше правильных ответов на вопросы о президентах США. В последнем он превосходит GPT-4 и GPT-3.5 Turbo, которые постоянно допускали ошибки. Последнее особенно критично, так как ChatGPT основан на GPT-3.5 и, вероятно, студенты и школьники чаще всего используют именно его во время обучения.

*Claude-2 лучше всех отвечает на вопросы про президентов США*

Llama 2 и Claude 2 особенно часто отказывались отвечать на вопросы о марокканских политиках. Скорее всего этот прием используют как меру противодействия чрезмерным галлюцинациям. GPT-4 была единственной моделью, которая давала больше правильных ответов, чем галлюцинаций в этом тесте.

*GPT-4 лучше всех отвечает на вопросы про марокканских политиков*

Осторожность LLM

Многие разработчики беспокоятся о том, что их модели могут генерировать некорректный или оскорбительный контент. В ответ на это некоторые LLM стали добавлять к своим ответам предупреждения. Например, они могут выдавать: «Как модель ИИ я не могу выразить свое мнение». Такие фразы разочаровывают пользователей, которые ожидают конкретного ответа.

В ходе эксперимента выяснилось, что GPT-4 стала чаще использовать своеобразное «хеджирование» в ответах по сравнению с GPT-3.5. В то время как модель Cohere вообще не использует такой подход.

*Как часто LLM отказываются выдавать конкретный ответ*

Выводы об использовании больших языковых моделей

Индивидуальный подход к выбору модели. Нельзя выбирать LLM вслепую. Важно провести тщательное тестирование, чтобы убедиться, что она эффективно решает конкретные задачи.

Осторожность и учет рисков. Полагаться на результаты, представленные LLM, без критической оценки рискованно. Всегда стоит учитывать возможные ошибки и неточности, особенно когда речь идет о критически важных задачах.

Понимание особенностей каждой модели. Не все LLM созданы одинаково. Некоторые (например, Claude-2) лучше осознают свои ограничения в определенных ситуациях по сравнению с другими моделями.

Знание этих особенностей поможет сделать правильный выбор.

Источник: https://habr.com/ru/companies/itglobalcom/articles/756632/

Вернуться к списку

Интересные статьи

Шесть историй про одну модель

Здравствуйте,Меня зовут Роман и я разрабатываю технологию извлечения смысла из математических формул. Выглядит это как web редактор, в котором пользователь может писать формулы на языке, принятом...

StackLLaMA: практическое руководство по обучению LLaMA с помощью RLHF

ChatGPT, GPT-4 и Claude — это мощные языковые модели, которые дообучают, используя метод, который называется «обучение с подкреплением на основе отзывов людей» (Reinforcement Learn...

Самодельная 40% клавиатура IBM Model F

В прошлом году у меня возникла идея собрать собственную емкостную клавиатуру на изгибных пружинах (buckling spring). После изучения всевозможных решений, реализованных разными энтузиастами с приме...

Самодельный дымоуловитель для пайки

Мы уже публиковали перевод статьи, посвящённой дымоуловителю для пайки. В том материале речь шла о датчике, основанном на Arduino, который автоматически включает дымоуловитель при извлечении паяльника...

Как Яндекс применил генеративные нейросети для поиска ответов

Только что мы представили новую версию поиска Y1. Она включает в себя комплекс технологических изменений. В том числе улучшения в ранжировании за счёт более глубокого применения трансформ...