Gemini обрели физическое воплощение: готовьтесь к революции роботов!

13.03.2025

Gemini Robotics: Новый подход в робототехнике

Gemini Robotics — это новая модель
Фокус на физическом мире для применения в роботах
Визуальная, интерактивная и универсальная система

Компания Google известна своими достижениями в сфере генерации текста и изображений на экране. Однако их последняя модель, Google Robotics, представляет собой модель визуального языкового действия, которая выводит генеративный ИИ в физический мир. Это может существенно ускорить гонку в революции создания гуманоидных роботов.

Новинка Gemini Robotics, представленная исследовательским подразделением Google DeepMind, улучшает способности предыдущей модели Gemini в трех ключевых направлениях:

Ловкость
Интерактивность
Обобщение

Эти сферы непосредственно влияют на успех робототехники в рабочих условиях и в неопределенных средах.

Особенность обобщения позволяет роботу использовать обширные знания о мире и применять их к новым ситуациям, выполняя задачи, в которых он не был специально натренирован. В одном из видеороликов исследователи демонстрируют, как пара роботизированных рук под управлением Gemini Robotics выполняет трюк в настольной игре в баскетбол, успешно справившись с заданием, которое робот ранее никогда не видел.

Gemini Robotics также делает роботов более интерактивными, они могут реагировать не только на изменяющиеся словесные команды, но и на непредсказуемые условия. В другом видеоролике робот получил поручение положить виноград в миску с бананами, причем исследователи намеренно передвигали миску. Благодаря своей ловкости руки робот смог выполнить задачу, несмотря на изменения во время процесса.

Google показала и другие способности робота, такие как игра в морской бой на деревянной доске, стирание записей с белой доски и создание оригами из бумаги.

Тем не менее, внедрение ИИ в робототехнику — не новое явление. В прошлом году компания OpenAI презентовала Figure 01, гуманоидного робота, способного выполнять задания на основе вербальных инструкций. Визуальная языковая модель, аналогичная таковой в Gemini Robotics, взаимодействует с голосовой моделью OpenAI, чтобы поддерживать диалог о задачах и их изменении.

Компания Google намерена интегрировать новую модель в гуманоидного робота Apollo производства Apptroniks, добавив дополнительное программирование и новый продвинутый визуальный языковой модуль под названием Gemini Robotics-ER.

Это улучшение позволит роботам оперативно осваивать новые задачи и использовать незнакомые объекты. Google утверждает, что Gemini Robotics ER является комплексным решением, способным выполнять все этапы управления роботом, включая восприятие, оценку состояния, пространственное понимание, планирование и генерацию кода.

В настоящее время модель Gemini Robotics-ER предоставляется ряду компаний и научных организаций, занимающихся робототехникой, таких как Atlas, Agile Robots и Agility Robots. В целом, несмотря на представленные разработки, пройдет еще некоторое время, прежде чем Gemini улучшит роботов, которые смогут стать частью повседневной жизни в домашних условиях.

Источник: TechRadar