Gemini Robotics: Новый подход в робототехнике
- Gemini Robotics — это новая модель
- Фокус на физическом мире для применения в роботах
- Визуальная, интерактивная и универсальная система
Компания Google известна своими достижениями в сфере генерации текста и изображений на экране. Однако их последняя модель, Google Robotics, представляет собой модель визуального языкового действия, которая выводит генеративный ИИ в физический мир. Это может существенно ускорить гонку в революции создания гуманоидных роботов.
Новинка Gemini Robotics, представленная исследовательским подразделением Google DeepMind, улучшает способности предыдущей модели Gemini в трех ключевых направлениях:
- Ловкость
- Интерактивность
- Обобщение
Эти сферы непосредственно влияют на успех робототехники в рабочих условиях и в неопределенных средах.
Особенность обобщения позволяет роботу использовать обширные знания о мире и применять их к новым ситуациям, выполняя задачи, в которых он не был специально натренирован. В одном из видеороликов исследователи демонстрируют, как пара роботизированных рук под управлением Gemini Robotics выполняет трюк в настольной игре в баскетбол, успешно справившись с заданием, которое робот ранее никогда не видел.
Gemini Robotics также делает роботов более интерактивными, они могут реагировать не только на изменяющиеся словесные команды, но и на непредсказуемые условия. В другом видеоролике робот получил поручение положить виноград в миску с бананами, причем исследователи намеренно передвигали миску. Благодаря своей ловкости руки робот смог выполнить задачу, несмотря на изменения во время процесса.
Google показала и другие способности робота, такие как игра в морской бой на деревянной доске, стирание записей с белой доски и создание оригами из бумаги.
Тем не менее, внедрение ИИ в робототехнику — не новое явление. В прошлом году компания OpenAI презентовала Figure 01, гуманоидного робота, способного выполнять задания на основе вербальных инструкций. Визуальная языковая модель, аналогичная таковой в Gemini Robotics, взаимодействует с голосовой моделью OpenAI, чтобы поддерживать диалог о задачах и их изменении.
Компания Google намерена интегрировать новую модель в гуманоидного робота Apollo производства Apptroniks, добавив дополнительное программирование и новый продвинутый визуальный языковой модуль под названием Gemini Robotics-ER.
Это улучшение позволит роботам оперативно осваивать новые задачи и использовать незнакомые объекты. Google утверждает, что Gemini Robotics ER является комплексным решением, способным выполнять все этапы управления роботом, включая восприятие, оценку состояния, пространственное понимание, планирование и генерацию кода.
В настоящее время модель Gemini Robotics-ER предоставляется ряду компаний и научных организаций, занимающихся робототехникой, таких как Atlas, Agile Robots и Agility Robots. В целом, несмотря на представленные разработки, пройдет еще некоторое время, прежде чем Gemini улучшит роботов, которые смогут стать частью повседневной жизни в домашних условиях.
Источник: TechRadar