DeepMind планирует наделить роботов «внутренним голосом»

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

Google DeepMind разрабатывает систему, которая обеспечит ИИ-агентов «внутренним голосом», чтобы помочь им более эффективно изучать задачи и в итоге стать «умнее».

В патентной заявке лаборатория описала метод под названием «Внутриагентная речь для облегчения обучения задачам», где роботы наблюдают за задачами через изображения или видео, а затем генерируют их описания на естественном языке.

По словам исследователей, такой «внутренний монолог» помогает связать визуальный ввод с действиями, позволяя агентам понимать и взаимодействовать с незнакомыми объектами без предварительного обучения, а также снижая требования к памяти и вычислениям. 

Например, робот может смотреть видео, на котором кто-то поднимает чашку, одновременно внутренне обрабатывая фразу «человек поднимает чашку». Это позволит агенту «вспоминать» правильные действия, которые следует предпринять при столкновении с похожими объектами. В итоге робот сможет принимать более обоснованные решения и эффективнее адаптироваться к новым ситуациям в динамичных реальных средах.

Техника поддерживает так называемое обучение «с нуля», то есть робот сможет выполнять задачи, связанные с незнакомыми объектами, без предварительного обучения. DeepMind отмечает, что такой подход снизит требования к памяти и вычислительной мощности, необходимым для обучения роботизированных систем. 

Инициатива основана на более широких усилиях DeepMind в области робототехники. В июне компания представила «Gemini Robotics On-Device», которая предназначена для работы без доступа к облаку. Google утверждает, что модель компактна и достаточно эффективна, чтобы работать непосредственно внутри робота.

Gemini Robotics On-Device — это версия модели Gemini Robotics Vision-Language, созданная для работы с роботами и без Интернета. Разработанная для чувствительных к задержкам или автономных сред, она работает локально, что позволяет роботам быстро реагировать на меняющиеся условия и сохранять конфиденциальность данных.

Gemini Robotics On-Device способна выполнять задачи из коробки и может адаптироваться к новым всего за 50–100 демонстраций. Разработчики Google позиционируют её как «стартовую модель». Первоначально обученный на роботе ALOHA от Google, ИИ был адаптирован к другим, таким как гуманоид Apollo от Apptronik и Franka FR3. Модель обрабатывает сложные действия, такие как складывание одежды или расстёгивание сумок.

Разработчики могут настраивать модель, дистанционно управляя роботом, чтобы изучать новые задачи. Она поддерживает моделирование с помощью динамики Multi-Joint с физическим движком Contact или развёртывание в физических средах. Однако, в отличие от гибридного аналога, версия на устройстве не имеет встроенных семантических систем безопасности. Google советует разработчикам внедрять собственные протоколы безопасности и на данный момент ограничила доступ к ИИ для оценки реальных рисков безопасности.

Источник: https://habr.com/ru/news/925346/


Интересные статьи

Интересные статьи

В марте 2025 года «1С-Битрикс» выпустил обновление Виртуальной машины до версии 9.0.6, которое исправляет уязвимость, связанную с повышением привилегий bitrix->root (оценка CVSS: 8.0). «1С-Бит...
Бытует мнение, что Битрикс прожорлив, и способен поглотить все ресурсы, которые есть на сервере. Убедимся, что это действительно так, и во всем виноват GeList. А потом попробуем разобраться, что с эти...
Для React разработано большое количество библиотек, которые позволяют без проблем работать даже с очень сложной анимацией, да и не только с ней. В подборку мы постарались добавить те из них, что спосо...
Установка расширения в браузер возможна благодаря такой замечательной штуке, как manifest.json. Но что он может скрывать и почему важно изучать (по возможности) манифест перед установкой. Сегодня мы э...
В этой статье мы популярно объясняем на собственном опыте как организовать массовую выгрузку, обработку и загрузку фотографий товаров из Bitrix, используя Python и минимальное количество SQL. Для проч...