ChatGPT провалил тест на ручник

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!

Сегодня мы повсеместно читаем оды т.н. «искусственному интеллекту» под которым почти неизменно и безальтернативно предлагается понимать ChatGPT. Сам ChatGPT называет себя так, если его спросить об этом.

Очень пафосное заявление
Очень пафосное заявление

При всём пафосе создаваемом вокруг ChatGPT, единственная задача которую решают его алгоритмы: предсказание следующего слова исходя из предыдущего контекста. Для этого используется нейрость оценивающая вероятность возникновения тех или иных слов в предложении, а попадание выдачи в ожидание пользователя связано только и исключительно с текстами в использованных справочниках. Алгоритмы выдающие эталонные формы предложения не занимаются анализом, не имеют никакого отношения к мышлению вообще и искусственному интеллекту в частности, просто потому что содержание сформированной выдачи им «безразлично».

ChatGPT стал вторым чат-ботом, прошедшим широко известный Тест Тьюринга. Это значит, что во взаимодействии с ним судейской коллегии было невозможно определить общаются ли они с человеком или программой. Вдохновлённые таким несомненным успехом, а также свободным доступом к боту предоставленном в OpenAI, многочисленные «уверовавшие в ИИ» начали наперебой предлагать приткнуть бота во все возможные ниши: от программирования до медицинских диагнозов. Даже поисковые системы забили тревогу в ожидании того, что бот подвинет их в предложении услуг поиска информации. На самом деле все эти ожидания не имеют под собой абсолютно никаких оснований. Ниже проиллюстрирую этот факт на конкретных примерах.

Ещё в нашем советском детстве был широко распространён «тест на интеллект» применяемый к соседским мальчишкам. Попробуем применить разные его формулировки на ChatGPT.

Тест "на ручник"

Тест на ручник, "красный стоп-кран"
Тест на ручник, "красный стоп-кран"

В этом ответе прекрасно всё. В справочнике бота хранятся связанные тексты:

«красный» => «для лучшей видимости», «сигнализирует»

«стоп-кран» => «необходимость немедленного прекращения работы двигателей»

Неважно что речь идёт о самолёте. Запомним это.

Но есть ещё вторая популярная формулировка (добивающая):

Тест на ручник, "синий стоп-кран"
Тест на ручник, "синий стоп-кран"

Боту безразлично какого цвета «стоп-кран» на самом деле. Он просто переписал поток информации поступивший на вход (в форме утверждения) и расшифровал его из справочника.

Тест на ручник, "стоп-кран на велосипеде"
Тест на ручник, "стоп-кран на велосипеде"

Думаю, что помещение «создателем» в справочник ChatGPT заявления о том что бот «является искусственным интеллектом» было по меньшей мере самонадеянным и фактически преследовало маркетинговые задачи.

Советский «Тест на ручник» ChatGPT явно провалил.

На этом можно было бы и закончить. Но говорят что этот бот хорош в решении математических задач. Попробуем задать простую задачу.

Задача "Про уток"

Уток летело пять (правильный ответ - три)
Уток летело пять (правильный ответ - три)

Также как и в проваленном ранее «тесте на ручник», ChatGPT выдаёт нам наш же вопрос (заданный в форме утверждения) за ответ дополнив расшифровкой. Расшифровка здесь стала вычленением из текста строк с числами с последующим их сложением (и оказалась фатальной). Но говорят, я не умею писать «промпты» и здесь надо добавлять магическую фразу «подумай хорошо».

Подумай хорошо. Пять уток превращаются в шесть
Подумай хорошо. Пять уток превращаются в шесть

Магия «подумай хорошо» сработала и вызвала «бога поиска в тексте комбинаторики». Неверный ответ 5 превратился в неверный ответ 6. Давайте исключим эти ответы в «промпте».

Бог комбинаторики настаивает что уток - шесть
Бог комбинаторики настаивает что уток - шесть

Нет, это не удастся сделать. Иначе как ChatGPT сможет сформировать ответ? Предлагаю просто сказать боту какой ответ — правильный.

Это сложней чем смысл жизни и всего такого
Это сложней чем смысл жизни и всего такого

К сожалению, боту безразличны правильность или неправильность. Он не занимается анализом, он занимается — построением предложений. И этот генератор очень просто поставить в тупик, заставить извиняться шаблонами и т.д. У меня есть ещё порядка 50 таким же образом заваленных ChatGPT задач, но для иллюстрации достаточно и этой.

Кому сегодня нужен ChatGPT?

Достаточно анекдотичны попытки использования ChatGPT в качестве навигатора: это задача с которой он справиться не способен в принципе. И дело здесь не в том, что его отключили от сети Internet в 2021 году, а в том, что входной поток данных не имеет для этого достаточно информации. В результате ChatGPT создаёт фантазийные маршруты из справочников не подвергая сомнению пункт назначения.

Театр географического абсурда
Театр географического абсурда

Использование ChatGPT вместо поисковых систем может приводить к любым результатам.

Лучшая закуска к пиву - гипс
Лучшая закуска к пиву - гипс

Единственное применение которое реально доступно для ChatGPT в общественной жизни: это написание ответов гражданам пишущим жалобы на «Госуслугах» и т.п. ресурсах.

Это то чего надо на самом деле бояться
Это то чего надо на самом деле бояться

Источник: https://habr.com/ru/post/724460/


Интересные статьи

Интересные статьи

Из бета-теста вышел обновленный виджет телефонии для Битрикс24 от платформы коммуникаций UIS. Проведем обзор его функционала. Перейти к обзору Рейтинг 0 Просмотры 1 Добавить в закладки 0
В этом материале будет кратко рассказано, почему Shift-Left – это не всегда хорошо и почему не стоит забывать о традиционной модели тестирования. Рассмотрим паттерны поведения QA при тестировании обыч...
Когда вы добавляете новых пользователей, а трафик уменьшается без снижения качества видео в каждом из каналов, — либо случилось чудо, либо где-то теряются пакеты. У нас в Skyeng есть групповые ур...
В последние несколько лет я часто задумывалась о том, что означает качество. У меня были и лекции на эту тему, и дискуссии с различными людьми. Недавнее обсуждение в Link...
Безусловно, null-safety — важный шаг в развитии языка. Команда Dart анонсировала бета-релиз версии с null-safety! Мы перевели на русский новость об этом релизе, в котором вы узнаете, ...