LLM Leaderboard за февраль 2024

Привет, Хабр!

Сегодня мы поговорим о том, какие LLM лучше всего работают на бизнес-задачах. AI-хайп находится на локальном пике, похоже, что весь мир только и делает, что внедряет AI-фичи в свои продукты, собирает миллионы на разработку еще одной оболочки для ChatGPT, заполняет свои ряды AI-тулами и, кажется, предоставляет работу роботам, пока сами попивают кофе в старбаксе.

Из чего состоит бенчмарк?

docs - работа с большими документами и базами знаний
crm - для работы с каталогами продуктов и маркетплейсами
integrate - интеграция со сторонними апишками, сервисами и плагинами
marketing - способность работать как ассистент маркетолога - brainstorming, idea refinement, text generation
reason - насколько хорошо с логикой в рамках предоставленного контекста
code - работа с кодом
final - общий рейтинг модели

Бенчмарк - закрытый, основан на тестах и промптах из рабочих продуктов и сервисов. Язык английский. В бенчмарке представлены не все модели(нет моделей 70B).

Для локальных моделей стоимость считается исходя из запуска модели на Azure VM/GCloud/AWS под Hugging Face transformers. Если использовать TGI/vLLM, то цена локальных моделей изменится в меньшую сторону.

Что изменилось за февраль?

ChatGPT-v4 хорошеет. GPT-4 Turbo 0125-preview (v4) не только обучена на самых свежих данных (Декабрь 2023), но и обогнала предыдущие две версии и заняла второе место. При этом она стоит в разы дешевле топовой модели.
Новый Mistral Large на бизнес задачах лучше своих младших собратьев, но до топов ему далеко. Разницы между двумя поколениями моделей помладше особо тоже нет. Младшие модели страдали хронической болтливостью, игнорированием few-shots промптов и невнимательность к инструкциям.

Итог

Лучшая модель остается по прежнему - GPT-4

Источник: https://habr.com/ru/articles/796825/

Вернуться к списку

Интересные статьи

Обновление Windows за февраль 2024 года удаляет панель задач

Некоторые пользователи после установки обновлений Windows 10 KB5034763 и Windows 11 KB5034765 от февраля 2024 года столкнулись с исчезновением или сбоями в работе панели задач. Microsoft исследует соо...

Wildberries в начале 2024 года поднимет комиссию для продавцов электроники и бытовой техники

Wildberries с 8 января повысит комиссию на продажу бытовой техники и электроники, пишет РБК со ссылкой на несколько участников рынка. Представитель Wildberries подтвердил информаци...

Дайджест событий для эйчаров и рекрутеров в IT на февраль 2021

В феврале сообщество эйчаров и рекрутеров в ИТ собирается, чтобы обсудить инструменты автоматизации подбора, организацию онлайн-корпоративов, гонку зарплат в ИТ и развити...

WSL --install: добавлена нативная установка дистрибутивов в Windows 10 Insiders Preview build 20246

Мы добавили автоматическую установку дистрибутивов в wsl --install в Windows 10 Insiders Preview build 20246! Это означает, что установка WSL теперь проще, чем когда-либо, так как теперь,...

Проект «Blue Moon» от Blue Origin: люди на Луне к 2024 году

Вчера состоялась закрытая презентация, на которой основатель Blue Origin и Amazon Джефф Безос объявил о том, что посадочный аппарат его фирмы доставит грузы (а возможно и людей) на южный полю...