ChatGPT прошёл тест Тьюринга

Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!

Учёные-когнитивисты из Калифорнийского университета в Сан-Диего заявили, что ChatGPT-4 успешно прошёл тест Тьюринга, обманув испытуемых-людей в 54% случаев.

Однако, по их мнению, такой результат может больше сказать о самом тесте, нежели об интеллекте современного ИИ. Математик Алан Тьюринг разработал свой тест ещё в 1950 году. Его участник-человек должен был общаться с компьютером через текстовый интерфейс. В случае, если ответы компьютера нельзя отличить от человеческих по широкому спектру возможных вопросов, то нужно признать, что он так же разумен, как и человек, рассуждал Тьюринг.

Исследователи попросили 500 участников поговорить с четырьмя разными агентами: тремя системами ИИ и одним человеком. В качестве ИИ выступили ChatGPT-4, ChatGPT-3.5 — две модели популярного чат-бота от OpenAI — и программа чата эпохи 1960-х годов под названием ELIZA.

Участников попросили убедить собеседника в том, что он человек, либо выяснить, с кем они разговаривают. Затем им дали пообщаться в течение пяти минут. После этого участников спросили, думают ли они, что разговаривают с компьютером, почему они так думают и насколько они уверены в своём мнении. В то время как устаревшая система ELIZA обманывала участников только 22% случаев, ChatGPT-3.5 смог сделать это ровно в половине бесед. Более продвинутая версия ChatGPT-4 показала себя ещё лучше. Для сравнения — участники правильно идентифицировали людей в беседах только в 67% случаев.

По словам исследователей, результаты «представляют собой первую надёжную эмпирическую демонстрацию того, что любая искусственная система проходит интерактивный тест Тьюринга для двух участников».

Пока это лишь предварительная версия статьи и она ожидает рецензирования, поэтому к результатам следует относиться с некоторой осторожностью. Однако, если они подтвердятся, это станет первым убедительным доказательством того, что ИИ прошёл тест Тьюринга.

Нелл Уотсон, исследователь искусственного интеллекта в IEEE, заявил: «Машины могут гадать, смешивая воедино правдоподобные обоснования вещей постфактум, как это делают люди. Это означает, что в системах искусственного интеллекта выражаются человеческие слабости и причуды, что делает их более похожими на людей, чем предыдущие системы».

Хотя может показаться странным включать программу 1960-х годов в испытание передовых технологий, эта модель была призвана проверить работу так называемого «эффекта ELIZA». Это идея о том, что люди могут очеловечивать даже очень простые системы.

Исследователи также отмечают, что изменение общественного восприятия ИИ могло повлиять на результаты теста Тьюринга: «На первый взгляд, низкий процент прохождения людьми может быть удивительным. Разве люди не должны проходить его в 100% случаев?». В 1950 году это предположение имело бы смысл, поскольку тогда отличить подобные системы от человека было проще. Однако теперь общественность становится все более осведомлённой об ИИ и его возможностях.

Исследователи также признают обоснованность критики теста Тьюринга. По их словам, «стилистические и социально-эмоциональные факторы играют большую роль в его прохождении, чем традиционные представления об интеллекте». Аналогичным образом, одной из наиболее успешных стратегий идентификации роботов был опрос о человеческом опыте, который срабатывал в 75% случаев. Это говорит о том, что тест Тьюринга на самом деле не доказывает разумность системы, а, скорее, измеряет её способность имитировать или обманывать людей.

По мнению исследователей, нынешний результат в лучшем случае обеспечивает «вероятностное» подтверждение того, что ChatGPT интеллектуален. Они отмечают, что убедительные системы ИИ могут «играть экономически ценные роли по работе с клиентами, вводить в заблуждение широкую общественность или своих собственных операторов-людей и подрывать социальное доверие к человеческим взаимодействиям».

Между тем исследователи из Редингского университета применили ChatGPT на базе GPT-4, чтобы сгенерировать ответы экзамена по психологии. Затем их отправили коллегам, которые смогли определить только одну из 33 тестовых работ как созданную ИИ. В некоторых случаях работы ИИ получили более высокие оценки, чем реальные студенты.

Источник: https://habr.com/ru/news/825290/

Вернуться к списку

Интересные статьи

Лучшее и новое: что расскажут о тестировании на Heisenbug 2024 Spring

До конференции по тестированию Heisenbug всего ничего, её программа уже известна, и пришло время рассказать о ней Хабру.Каждый раз в Heisenbug есть и то, за что его знают и любят, и новое.Что уже знак...

Сколько попугаев выдает ваш WAF? Обзор утилит для тестирования

Утилиты для синтетического тестирования чего-либо всегда пользовались популярностью. В памяти сразу всплывают Antutu, CPU-Z, 3DMark… А есть ли что-то подобное, но для тестирования WAF? Меня зовут Ва...

Самодельные инструменты для тестирования продукта, или DIY в разработке

Все мы привыкли к общепринятым инструментам для тестирования. Думаю, список есть у каждого и он постоянно пополняется. Лично мой: Postman, IntelliJ IDEA и DataGrip от JetBrains, ShareX для скриншотов...

Большой тест батареек CR2032

Цены на разные литиевые батарейки CR2032 отличаются в десятки раз. Мне всегда было интересно выяснить, насколько дешёвые батарейки этого типа отличаются по ёмкости от дорогих и какие из н...

Что дает объединение ручного и автоматизированного тестирования: опыт Wrike

Читая статьи на тему web-тестирования, вырисовываются условно две темы: 1) ручное тестирование вымирает, автотесты (здесь и далее под автотестами имеются в виду Selenium UI и REST-тесты) – наше...