Искусственный интеллект Google учится, наблюдая за фильмами — как и все остальные

12.07.2024

Команда робототехники Google DeepMind учит роботов учиться так, как это делал бы человеческий стажер: глядя на видео. Команда опубликовала новую статью, в которой демонстрируется, как роботы Google RT-2 с моделью искусственного интеллекта Gemini 1.5 Pro могут учиться анализировать информацию из видеороликов, чтобы научиться ориентироваться и выполнять задания по прибытии на место назначения.

Благодаря долгому окну контекста модели Gemini 1.5 Pro обучение робота, как нового стажера, становится возможным. Это окно позволяет искусственному интеллекту одновременно обрабатывать обширные объемы информации. Исследователи снимали видеоэкскурсию по определенной области, такой как дом или офис. Затем робот смотрел видео и узнавал об окружающей среде.

Детали в видеороликах позволяют роботу выполнять задачи на основе полученных знаний, используя как устные, так и образные выходы. Это впечатляющий способ показать, как роботы могут взаимодействовать с окружающей средой, воспроизводя поведение человека.

Эти демонстрации не случайные случаи. В практических испытаниях роботы, работающие на базе Gemini, действовали в зоне площадью 9000 квадратных футов, успешно выполняя более 50 различных инструкций пользователей с успехом на уровне 90 процентов. Этот высокий уровень точности открывает много потенциальных применений искусственного интеллекта для роботов в реальном мире, помогая в домашних делах или на работе с мелкими или даже более сложными задачами.

Это связано с тем, что одной из заметных особенностей модели Gemini 1.5 Pro является ее способность к выполнению многоэтапных задач. Исследования DeepMind показали, что роботы могут находить ответы на такие вопросы, как наличие определенного напитка, переходя к холодильнику, визуально определяя его содержимое, возвращаясь и давая ответ.

Идея планирования и выполнения всей последовательности действий демонстрирует уровень понимания и выполнения, который превосходит текущий стандарт одношаговых указаний для большинства роботов.

Не стоит ожидать, что этот робот будет продаваться в ближайшее время. Во-первых, на обработку каждой инструкции требуется до 30 секунд, что значительно медленнее, чем выполнение действий самостоятельно в большинстве случаев. Хаос в реальных домах и офисах будет намного сложнее для робота навигировать, чем контролируемая среда, несмотря на передовую модель искусственного интеллекта.

Тем не менее, интеграция моделей искусственного интеллекта, таких как Gemini 1.5 Pro, в робототехнику является значительным прорывом в этой области. Роботы, оснащенные моделями типа Gemini или их конкурентов, могут изменить сферу здравоохранения, доставки и даже уборочных работ.

Источник: TechRadar