LLM Leaderboard за апрель 2024

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

Привет, Хабр!

Сегодня мы поговорим о том, какие LLM лучше всего работают на бизнес-задачах. AI-хайп находится на локальном пике, похоже, что весь мир только и делает, что внедряет AI-фичи в свои продукты, собирает миллионы на разработку еще одной оболочки для ChatGPT, заполняет свои ряды AI-тулами и, кажется, предоставляет работу роботам, пока сами попивают кофе в старбаксе. 

Из чего состоит бенчмарк?

  • docs - работа с большими документами и базами знаний

  • crm - для работы с каталогами продуктов и маркетплейсами

  • integrate - интеграция со сторонними апишками, сервисами и плагинами

  • marketing - способность работать как ассистент маркетолога - brainstorming, idea refinement, text generation

  • reason - насколько хорошо с логикой в рамках предоставленного контекста

  • code - работа с кодом

  • final - общий рейтинг модели

Бенчмарк - закрытый, основан на тестах и промптах из рабочих продуктов и сервисов. Язык английский. В бенчмарке представлены не все модели(нет моделей 70B). 

Для локальных моделей стоимость считается исходя из запуска модели на Azure VM/GCloud/AWS под Hugging Face transformers. Если использовать TGI/vLLM, то цена локальных моделей изменится в меньшую сторону.

Автор бенчмарка Rinat Abdullin
Автор бенчмарка Rinat Abdullin

Что нового? 

  1. Начнем с хорошего. Llama 3 - 8B совершила гигантский скачок по сравнению с прошлой версией. Она обогнала Claude 3 Sonnet, Cohere Command R и даже Mistral 8x22B. У меня большие ожидания к тюнам Llama 3 8B Instruct.

  2. Llama 3 70B показала себе не очень хорошо, на уровне старенького cloude 2, проблема скорее всего с конфигом, ждем исправлений.

  3. Mistral AI начали фиксить свою проблему с болтливостью второго поколения своих моделей! Более того, она настолько хорошо стала следовать инструкциям, что побила рекорд ChatGPT-4 Turbo (v2024-04-09) в категории integrate. Стоит при этом раз в 10 меньше, чем Mistral Large.

  4. Новая модель Cohere Command R+ показывает себя очень хорошо, но жаль что они выпустили с лицензией cc-by-nc-4.0(не для коммерческого использования)

  5. Продукт openAI так и никому не удалось перебить, но конкуренты все догоняют. Опенсорсные модели получили скачок в развитие.

Новые бенчмарки оперативнее выходят в телеграмм канале. Если вы не хотите их пропустить, приглашаем вас подписаться на Телеграм-канал автора: it_garden. Там уже опубликована таблица с 2000 ИИ-инструментами. Полезно для того, чтобы понять, что вообще бывает.

Источник: https://habr.com/ru/articles/810969/


Интересные статьи

Интересные статьи

Целевое кредитование в 2024-ом. Часть третья "Как сделать схему удобной для всех" В этой статье мы разобрали новые схемы целевого кредитования, которые можно брать и делать.
Выставка CES (Consumer Electronics Show), каждый год проходящая в январе в Лас-Вегасе, считается крупнейшей выставкой в мире высоких технологий. Часто она задает тренды на весь оставшийся год, как это...
Современный мир производит огромное количество данных каждую секунду, создавая огромный объем информации, который требуется хранить, управлять и анализировать. В этой статье мы кратко рассмотрим 25 из...
NVIDIA планировала выпустить в Китае свои новые вычислительные ускорители, адаптированные под введённые в октябре американскими властями экспортные ограничения, уже в ноябре. Однако, согласно инфо...
Салют! Мы завершаем мини-цикл о том, что произошло в кибербезопасности (и не только) в 2023-м и как это откликнется в предстоящем году. Уже поведали о наиболее пострадавших от киберпреступников отрасл...