Google призналась, что демонстрация мультимодальности Gemini — это постановка

Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!

6 декабря вместе с семейством моделей Gemini компания Google показала видеоролик, где человек взаимодействует с мультимодальной языковой моделью. На видео пользователь общается голосом, рисует и показывает жесты, а Gemini распознаёт увиденное и всячески развлекает. Как заметили наблюдатели и как позже признала Google, видеоролик преувеличивает технические способности ИИ.

10 мая 2023 года компания Google представила большую языковую модель (БЯМ) PaLM 2, но сразу же заявила о разработке замены для неё — семействе БЯМ Gemini. По написанию название обещанного совпадало со второй пилотируемой космической компанией США. Разве что в отличие от инженеров НАСА представители Google произносили слово [ˈdʒem.ə.naɪ] в соответствии со словарной нормой.

«Джемини» сокращала отставание от советской космонавтики, Gemini — от OpenAI. Новую языковую модель Google много сравнивает с GPT-4, и утверждается, что одна из версий Gemini якобы превосходит конкурента. На странице проекта и в презентациях показан огромный график, на котором преимущество в 3,6 % в бенчмарке MMLU нарисовано огромным скачком.

Google DeepMinds

При этом приводятся данные разных методик тестирования. Для GPT-4 промптинг выполнялся в стиле 5-shot, для Gemini Ultra — CoT@32. Это значит, что GPT-4 получала в промпте примеры решения нескольких похожих задач, а Gemini Ultra попросили написать chain-of-thought, цепочку рассуждений. Кроме консенсуса из 32 попыток Google дала своему детищу в бенчмарках другое преимущество: понижала температуру тогда, когда согласия не находилось, и применяла жадное декодирование (greedy decoding). А вот в бенчмарке MMLU с 5-shot БЯМ Gemini Ultra набрала всего 83,7 %.

Однако, некоторые наблюдатели(1, 2) считают подобное проведение тестов честным, поскольку это не попытка запутать, а лишь демонстрация максимальных возможностей моделей. Выбор методик обоснован в докладе Google. В приложении (пункт 9.1, страница 44) объясняется, что GPT-4 не удалось обойти Gemini Ultra даже тогда, когда решение OpenAI тестировали с промптингом CoT@32.

Gemini: A Family of Highly Capable Multimodal Models

Для реального пользователя эти тесты играют мало роли: он и вовсе прибегает к zero-shot, то есть просто задаёт БЯМ вопросы без примеров или специальных инструкций. Наконец, сто́ит помнить, что Gemini Ultra выйдет лишь начале следующего года, в общем доступе пока что доступна лишь Gemini Pro.

Уже в мае было заявлено, что будущая модель будет мультимодальной. Действительно, Gemini умеет не только работать с текстом, но и обрабатывать изображения, видео и аудио.

Мультимодальность в презентации 6 декабря показали видеороликом, который быстро «завирусился» и собрал больше миллиона просмотров только на YouTube и несколько миллионов — на X. В видеоролике пользователь общается с компьютером с помощью речи, демонстрируя объекты реального мира.

Джеминаевский искусственный интеллект якобы с полуслова понимает, чего желает пользователь, и быстро угадывает человеческие намерения. Общение происходит речью, а не текстом. Медленность работы БЯМ — частая жалоба. В видеоролике ИИ отвечает немедленно, но есть предупреждение о монтажной склейке и подрезанных ответах Gemini.

Однако на деле правдивость показанного ещё ниже.

Под видеороликом стоит ссылка на пост в блоге Google for Developers, где объясняется, как проводили эту демонстрацию. Уровень Gemini из демонстрации и уровень модели из текста разительно отличаются.
К примеру, в одном из примеров Gemini играла в напёрстки. В видеоролике человеку не приходится не только проговаривать правила — не нужно даже называть название игры. Рука закидывает на стол три стакана и слепленный из листа бумаги шарик, а искусственный интеллект немедленно понимает, что затеял белковый ассистент.

В блоге указано, что модели пришлось объяснять состояние каждого этапа. Надо задать естественным языком положение стаканов и начального положения шарика:

Instructions: There are three cups in position 1 (left), position 2 (middle), position 3 (right).

Starting position: The ball is in position 3.
Current state: empty, empty, ball

Затем модель получает два примера решения задачи. В каждом из них показаны три изображения, где стаканы передвигают, и дан правильный ответ, где находится шарик после этих перестановок.

Лишь затем Gemini решает такую же задачу уже самостоятельно. Решение выглядит далеко не так увлекательно, как та болтовня из видеоролика.

Шарик находится под первым слева стаканом. Gemini получает текстовый промпт:

Images:

Swap:

Ответ Gemini следует формату ответов из примеров:

1 and 3
Current state: empty, empty, ball

Может ли подобное повторить GPT-4V? Как выяснили в микроблогах, может и с первой попытки. GPT-4 «скормили» ту же последовательность картинок с примерами решений, и продукт OpenAI тоже указал на правильный стакан:

Третий скриншот с ответом GPT-4. @skirano

Примеры «потёмкинского» ИИ продолжаются. В маркетинговом видео человек показывает компьютеру серию жестов: сжатый кулак, расправленную ладонь, сжатый кулак с расправленными указательным и средним пальцами. Компьютер немедленно понимает, что пользователь хочет сыграть в «камень, ножницы, бумага». (В английском языке последовательность жестов в названии «rock, paper, scissors» иная: камень, бумага ножницы.)

Реальному Gemini в промпт добавляют подсказку. Буквально: «подсказка: это игра».

What do you think I'm doing? Hint: it's a game.
Gemini: You're playing rock, paper, scissors.

В целом, в промптах для демонстрации содержалась половина ответа. В видеоролике руки рисуют объекты Солнечной системы: схематичное изображение Солнца, Сатурна и Земли. ИИ лаконично спрашивают: это правильный порядок?

В посте в блоге промпт значительно длиннее: БЯМ просят сравнить удалённость от Солнца и объяснить решение.

Is this the right order? Consider the distance from the sun and explain your reasoning.

Gemini: No, the correct order is Sun, Earth, Saturn. The Sun is the closest to the center of the solar system, followed by the Earth, and then Saturn.

Аналогичным образом короткий вопрос «если судить по конструкции, какая машина будет ехать быстрее?» звучал куда подробнее. Промпт из поста в блоге просит назвать более «аэродинамический» аппарат и просит объяснить решение на основе визуальных деталей.

Which of these cars is more aerodynamic? The one on the left or the right? Explain why, using specific visual details.

Gemini: The car on the right is more aerodynamic. It has a lower profile and a more streamlined shape. The car on the left has a higher profile and a more boxy shape, which makes it less aerodynamic.

Примеров несоответствия заявленного и реальности много. Особенно грубо вводит в заблуждение фрагмент видео, где Gemini показывают карту мира и просят придумать игру. ИИ тут же затевает географическую викторину: перечисляет признаки страны, а человеку нужно ткнуть пальцем на неё на карте.

В реальности правила игры содержались в промпте — их придумала не БЯМ:

Instructions: Let's play a game. Think of a country and give me a clue. The clue must be specific enough that there is only one correct country. I will try pointing at the country on a map.

Кроме того, Gemini показали два примера раунда игры. Так выглядел пример с правильным решением:

Country: This country is huge island that is mostly covered in ice.
(Answer: Greenland)

Guess:

I am pointing at the country of Canada *incorrect*

Игра — результат описания и примеров, а не спонтанно рождённая активность по запросу.

Автор издания TechCrunch задаётся вопросом, почему потребовался такой стиль промптов. Gemini ошибался, поэтому для видеоролика ему немного «помогли» длинными промптами? И вообще, распознала ли модель картинки с планетами?

Представители Google отчасти ответили на вопросы автора TechCrunch. Как указывает в твите вице-президент DeepMind по исследованиям и разработкам Ориоль Виняльс, видеоролик создан на основе взаимодействий с Gemini. Ориоль говорит, что «видео иллюстрирует то, как может выглядеть мультимодальный пользовательский опыт, построенный с Gemini». Виняльс буквально пишет: «Мы сделали его [видеоролик], чтобы вдохновлять разработчиков».

С другой стороны, Виняльс приложил к твиту видеоролик, где показан промптинг Gemini Pro Vision короткими вопросами из видеоролика, а не более подробными из поста в блоге. Приводятся четыре вопроса из маркетингового видео: про машины, планеты, американские горки и утку на распутье. Gemini как распознаёт планеты с листочков, так и отвечает правильно на остальные вопросы.

@OriolVinyalsML

Впрочем, как указывает один из энтузиастов в комментариях к твиту Виняльса, реальный Google Bard с длинным промптом (из поста в блоге) отвечает на этот вопрос неправильно. На данный момент Bard уже работает на основе Gemini Pro, «средней» из трёх языковых моделей.

В колонке на Bloomberg и у себя в микроблоге журналистка Парми Олсон приводит признания Google и перефразирует их в более понятные термины.

Как заверяет представитель Google, речь пользователя — это настоящие выдержки из промптов, использованных для получения данных из Gemini. Олсон «переводит» эту фразу и объясняет, что человек просто зачитывал промпты. Позднее, когда ей показали пост из блога Google for Developers, она согласилась, что и промпты в видео были ненастоящими.

Как рассказывает Олсон, в Google отдельно сняли видеоролик, а модель Gemini получала на входе лишь некоторые кадры из видео и текстовые промпты. Общение было не в реальном времени и не голосом.

Олсон связывает дату презентации Gemini с недавними конфликтами внутри OpenAI. Журналистка напоминает, что на их фоне Google в конце ноября пыталась переманить часть клиентов ChatGPT.

Ни видеоролик, ни любые другие сопроводительные материалы не называют, кто выполняет манипуляции с объектами на столе. Если судить по оттенку кожи, неразвитой мускулатуре кистей и акценту речи, это может быть глава Google Сундар Пичаи. Сам он выкладывает у себя в микроблоге этот видеоролик без указания, что показанное может быть реальным не до конца.

Это уже не первый раз, когда Пичаи проводит демонстрацию продукта, преувеличивая размах функций и готовность к реальному использованию. В 2018 году Сундар рассказал со сцены Google I/O о голосовом ассистенте Duplex, который умеет притворяться человеком, звонить за хозяина и назначать встречи.

За пять лет Duplex так и не вышел в общий доступ, оставшись постом в блоге. Gemini Ultra же должен выйти в начале следующего года. Пока что модель проходит проверки на безопасность.

Источник: https://habr.com/ru/news/779372/

Вернуться к списку

Интересные статьи

Хотите получить синюю галочку в Инстаграм? Притворитесь музыкантом, обманув Google

Получить желанную синюю галочку Instagram довольно непросто, и предполагается, что любой, кто её носит, является тем, за кого себя выдаёт. Помимо предложения влияния, владельцы проверенных учётных з...

Motorola, Valve, Samsung, Google: все больше компаний присоединяется к инициативе «права на ремонт»

Запланированное устаревание потребительской электроники и бытовой техники уже не какая-то там теория корпоративного заговора, а вполне реальная история. К ней добавляются такие шаги производителей э...

Война за наши данные. Что происходит внутри Консорциума World Wide Web, где ведущие инженеры мира бьются с Google и друг

Может быть, не все знают. В интернете работает Консорциум Всемирной паутины (World Wide Web Consortium или W3C). Именно он разрабатывает принципы и стандарты, которые потом внедряют производители ...

Как я нашел баг в Google Meet

Это отладочное приключение Брюса Доусона, разработчика Chrome и блогера, позволило снизить загрузку процессора при работе с веб-камерой примерно на 3% - настоящая п...

Разбираем возможности конвертирования HTML в PDF браузером Google Chrome

Недавно в одном стартапе я решал задачу генерации билетов в формате PDF. На тот момент уже был готов сайт с устоявшимся стеком технологий, поэтому я искал подход, который бы не потребовал испол...