ИИ от DeepMind провалил школьный тест по математике

Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!

Научно-популярные и даже развлекательные СМИ в наше время переполнены новостями об успехе ИИ-проектов. То искусственный интеллект побеждает человека в го, то учится играть в StarCraft и выходит победителем из схватки с признанными чемпионами. И это только малая толика достижений, на самом деле их гораздо больше. Обычный человек (в смысле, не связанный с ИТ-сферой) может подумать, что вот-вот появится настоящий, «большой» искусственный интеллект, о котором пишу фантасты и снимают фильмы.

Но все далеко не так радужно. К примеру, на днях появилась информация о том, что ИИ попробовал сдать тест по высшей математике (школьный тест, стандартный для США) и не смог этого сделать.

В принципе, причины неудачи можно объяснить без особого труда. Так, человек при решении задач математического характера задействует следующие способности и возможности.

Модифицирует для себя символы в сущности, такие как числа, арифметические операторы, переменные (которые в комплексе образуют функции) и слова (определяющие вопрос, смысл задачи и т.п.).

Планирование (например, ранжируя функции в порядке, необходимом для решения математической задачи).
Использование вспомогательных алгоритмов для составления функций (сложение, умножение).
Использование кратковременной памяти для хранения промежуточных значений (например, h (f (x))).
Применение на практике полученных ранее знаний о правилах, преобразованиях, процессах и аксиомах.

DeepMind обучили и тестировали на подборке различных типов математических проблем и задач. Разработчики не использовали краудсорсинг, вместо этого они синтезировали набор данных для генерации большого количества тестовых задач, контроля уровня их сложности и т.п. Команда разработчиков использовала текстовый формат данных «произвольной формы».

Изначальные данные базировались на задачах из подборок заданий для учащихся школ Великобритании (возраст до 16 лет). Задания брались из таких направлений, как арифметика, алгебра, теория вероятностей и др.

Команда DeepMind, выбирая архитектуру нейросети для решения математических задач, остановилась на LSTM (долгая краткосрочная память) и Transformer (архитектура нейросетей для работы с последовательностями).

DeepMind протестировал две модели LSTM для работы с математическими задачами: простой LSTM и Attentional LSTM схема работы которого показана на рисунке ниже.

Ниже — схема работы модели Transformer

Результат оказался не слишком хорошим. Лишь 35% ответов ИИ оказались правильными, это неудовлетворительная оценка по стандартам любой школы.

Конечно, исследователи из DeepMind пока лишь начали работу с математикой и ИИ. В дальнейшем можно ожидать бОльших успехов, как это было с тем же AlphaGo.

С данными полного исследования можно ознакомиться по этой ссылке.

Источник: https://habr.com/ru/company/madrobots/blog/447120/

Вернуться к списку

Интересные статьи

Взгляд химика, тестировщика и аналитика данных на чёрную металлургию и большие данные в ней

Всем привет. Меня зовут Александр и я химик тестировщик аналитик данных. Как и многие люди моего поколения, я работаю не по специальности. После химфака МГУ и пяти лет работы младшим ...

Как мы импортозаместили аутсорсинг тестирования. Пошаговая инструкция

Когда в 2014 году курс доллара взлетел, а страна взяла курс на импортозамещение, мне пришлось заниматься заменой старой команды внешних тестировщиков, оплачиваемой в долларах, на новую, оплачивае...

Тестируем 1С на VPS

Как вы уже знаете, мы запустили новую услугу VPS с предустановленной 1С. В прошлой статье вы задали много технических вопросов в комментариях, сделали несколько ценных замечаний. Оно и понятно — ...

Тестирование многопоточного и асинхронного кода

Привет! На неделе встала задача написать интеграционный тест для Spring Boot приложения, использующего асинхронное взаимодействие с внешними системами. Освежил много материала про отладку много...

Тестирование покажет: как подготовиться к внедрению Cisco ISE и понять, какие фичи системы вам нужны

Как часто вы покупаете что-то спонтанно, поддавшись крутой рекламе, а потом эта изначально желанная вещь пылится в шкафу, кладовке или гараже до очередной генеральной уборки или переезда? Как...