Мультимодальный RAG может повысить эффективность использования ИИ для бизнеса

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

По мере того как компании начинают экспериментировать с мультимодальной генерацией, дополненной поисковыми данными (RAG), поставщики мультимодальных встраиваний — метода преобразования данных в файлы, читаемые RAG, — советуют предприятиям начинать с малого, осваивая внедрение изображений и видео.

Дисклеймер : это вольный перевод статьи издания Venture Beat. Перевод подготовила редакция «Технократии». Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, LLM и RAG, а также делимся полезными мастридами и актуальными событиями.

Обсудить пилот или задать вопрос об LLM можно здесь.

Мультимодальный RAG, который может обрабатывать различные типы файлов — от текста до изображений и видео, — опирается на модели встраивания, которые преобразуют данные в числовые представления, читаемые ИИ-моделями. Встраивания, способные обрабатывать все виды файлов, позволяют компаниям находить информацию из финансовых графиков, каталогов продукции или любых информационных видеоматериалов, предоставляя более целостное представление о деятельности предприятия. 

Cohere, обновившая свою модель Embed 3 для обработки изображений и видео в прошлом месяце, заявила, что предприятиям необходимо подготовить свои данные соответствующим образом, обеспечить надлежащее качество работы встраиваний и эффективнее использовать мультимодальный RAG. 

«Прежде чем вкладывать значительные ресурсы в мультимодальные встраивания, стоит протестировать их в ограниченном масштабе. Это позволит вам оценить производительность модели и ее пригодность для конкретных задач, а также выявить возможные корректировки перед полноценным внедрением», — написал архитектор решений Cohere Янн Стоунман в своем блоге. 

Компания отметила, что многие из описанных процессов характерны для большинства других мультимодальных моделей встраивания.

Стоунман подчеркнул, что в зависимости от отрасли модели могут нуждаться в «дополнительном обучении для улавливания тонких деталей и вариаций на изображениях». В качестве примера он привел медицинские приложения, где радиологические снимки или фотографии микроскопических клеток требуют специализированной системы встраивания, способной понимать нюансы подобных изображений.

Подготовка данных — ключевой этап

Прежде чем вводить изображения в мультимодальную систему RAG, их необходимо предварительно обработать, чтобы модель встраивания могла их правильно считать.

Изображения могут нуждаться в изменении размера для достижения единообразия, а организациям необходимо решить, стоит ли улучшать качество низкокачественных фото, чтобы не терялись важные детали, или, наоборот, понижать разрешение слишком качественных снимков, чтобы не перегружать систему обработкой. 

«Система должна уметь обрабатывать указатели изображений (например, URL-адреса или пути к файлам) наряду с текстовыми данными, что может быть невозможно при использовании текстовых встраиваний. Чтобы создать удобный пользовательский интерфейс, организациям, возможно, придется разработать пользовательский код для интеграции поиска изображений с существующими системами текстового поиска», — говорится в блоге. 

Мультимодальные встраивания становятся все более полезными

Многие системы RAG в основном работают с текстовыми данными, поскольку текстовые встраивания проще использовать, чем изображения или видео. Однако, поскольку у большинства предприятий есть данные различных типов, RAG, способный искать как изображения, так и тексты, становится все более востребованным. Ранее организациям приходилось внедрять отдельные системы и базы данных для разных типов данных, что не позволяло осуществлять смешанные поисковые запросы. 

Мультимодальный поиск не является чем-то новым: OpenAI и Google уже предлагают подобные решения в своих чат-ботах. OpenAI запустила последнее поколение моделей встраиваний в январе. Другие компании также предлагают решения для интеграции данных различных типов в мультимодальные RAG. Например, Uniphore представила инструмент, помогающий предприятиям подготавливать мультимодальные наборы данных для RAG.

Источник: https://habr.com/ru/articles/857690/


Интересные статьи

Интересные статьи

Был такой функционал в Битрикс24 - Face-трекер. В 2022 году его отключили, о чем вышло официальное уведомлениеПричина для отключения - "Провайдер, с которым мы сотрудничаем, сейчас не может предостави...
Всем привет! На связи ИТ-команда подразделения ДОМ.РФ Земли. Мы занимаемся автоматизацией вовлечения в оборот неиспользуемых или используемых не по назначению федеральных земельных участков и объектов...
Наконец-то мы подобрались к финальной части большой саги о создании демки для ПЭВМ «Микроша». В предыдущих первой и второй части я реализовал заходник, само видео вращения, и понял, как сделать звук...
На прошлой неделе получил развитие вялотекущий скандал вокруг Footfallcam, британского производителя специализированных веб-камер. Издание The Register в своем материале приводит предыст...
Реализация ORM в ядре D7 — очередная интересная, перспективная, но как обычно плохо документированная разработка от 1с-Битрикс :) Призвана она абстрагировать разработчика от механики работы с табл...