Hidden Gem — LLava 1.5

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.
интернет начиная с августа месяца
интернет начиная с августа месяца

Ладно, на самом деле картинка не верна, если нормально померить - gpt4v будет обгонять любой опенсурс на любом бенче, но api нет, папиры нет, а значит я могу клипать смешнявки на потеху публике.

Архитектура простая простейшая - давайте возьмем LM пожирнее(Vicuna 13b - удачный тюн llama), а дальше начинаются фокусы:

Обучение идет в два этапа

  1. Треним на LAION-CC-SBU - кусок LAION размеченный BLIP, причем учим ТОЛЬКО тонкую матрицу projection поверх вектора из CLIP, за счет чего экономиться куча ресурсов - у нас все остальное заморожено! А сама проекция идет в IMAGE_TOKEN - выделенный токен под картинку, в него мы пихаем всю информацию. Короче Prefix tuning чистой воды.

  2. Учим уже и Projection матрицу и LM на сете диалогово инстуктивного формата.

    1. Собирался он так: брали COCO17(это кэпшены) и просили GPT4 написать диалог на их основе! Easy peasy

      так выгляят возможные варианты разметки для 1 изображения, используются все 3
      так выгляят возможные варианты разметки для 1 изображения, используются все 3

Красивые картинки из статьи:

Видали как может? а пару лет назад для этого было нужно пятом моделей разной степени тяжести!
Видали как может? а пару лет назад для этого было нужно пятом моделей разной степени тяжести!

Бенчмарки

Фактически это лучшая opensource модель для текстовых операций с изображениями + она есть в 7b и 13b размере - те запустить можно на любом тостере с 3090 на LORA finetune.

А еще ее можно использовать в связке с GPT4, в формате когда LLAVA только описывает изображение, а gpt4 нормализует и улучшает текст.

Реально полезные ссылки

  • Баловаться с демкой

  • paper

  • Github запускаться отсюда

Shameless self Promo

А если очень хочется читать больше такого - подписаться на мой канал в tg

Источник: https://habr.com/ru/articles/772024/


Интересные статьи

Интересные статьи

Хоть анонимные сети и являются определённого рода остатком, придатком куда большего множества всеразличных коммуникаций, тем не менее их можно рассматривать как некого рода островки приватности, абстр...
Сворачивающиеся разделы с контентом, называемые как аккордеон, являются распространенным шаблоном пользовательского интерфейса. Однако контент, скрытый в свернутых разделах, становится невозможным для...
Ещё одна скрытая сеть с теоретически доказуемой анонимностью.
Продолжаем проходить различные "квесты" и "пазлы" на просторах интернета. На этот раз в руки мне попался https://hiddenkeywords.com/ Это испытание было создано студией Propellernet - студия маркетинг...
Свежие новости и статьи из мира фронтенд-разработки за последнюю неделю 25 апреля–1 мая.— Сделайте так, чтобы поиск по странице работал даже в сворачиваемых элементах, с помощью атрибута hidden, но с ...