Google обучает своих роботов с помощью Gemini AI, чтобы они могли лучше ориентироваться и выполнять задачи. Команда робототехники DeepMind объяснила в новой исследовательской статье, как использование длинного окна контекста Gemini 1.5 Pro позволяет пользователям более легко взаимодействовать с их роботами R2-T, используя инструкции на естественном языке.
Это происходит путем съемки видеоэкскурсии по определенной области, такой как дом или офисное пространство, с исследователями, использующими Gemini 1.5 Pro, чтобы заставить робота «смотреть» видео и учиться окружающей среде. Затем робот может выполнять команды на основе того, что он наблюдал, используя устные и / или изобразительные результаты — например, направляя пользователей к розетке после того, как им показали телефон и спросили: «Где я могу его зарядить?». DeepMind сообщает, что их робот, работающий на базе Gemini, имел 90-процентную успешность в более чем 50 инструкциях пользователя, которые были даны в области более 9000 квадратных футов.
Исследователи также обнаружили «первоначальные доказательства» того, что Gemini 1.5 Pro позволил их дроидам планировать выполнение инструкций за пределами простой навигации. Например, когда пользователь с множеством банок Coca-Cola на своем столе спрашивает дроида, есть ли их любимый напиток, команда сказала, что Gemini «знает, что робот должен переместиться к холодильнику, проверить наличие Coca-Cola и затем вернуться к пользователю, чтобы сообщить о результате». DeepMind говорит, что планирует дополнительно исследовать эти результаты.
Предоставленные Google видеодемонстрации впечатляют, хотя очевидные обрывы после того, как дроид подтверждает каждый запрос, скрывают, что на обработку этих инструкций уходит от 10 до 30 секунд, согласно исследовательской статье. Возможно, пройдет некоторое время, прежде чем мы начнем делиться нашими домами с более продвинутыми роботами для картографирования окружающей среды, но по крайней мере они могут помочь нам найти наши потерянные ключи или кошельки.
Источник: The Verge