OpenAI представила предварительную версию нового AI-агента под названием Operator, который способен выполнять задания в интернете от лица пользователя. Об этом говорится в блоге компании. Operator оснащен собственным браузером, который позволяет просматривать веб-страницы и взаимодействовать с ними путем набора текста, кликов и прокрутки. На данный момент доступ к Operator получат пользователи ChatGPT Pro в США, подписка на который обойдется в 200 долларов в месяц.
Operator функционирует на основе модели «Computer-Using Agent», которая объединяет возможности GPT-4o в области восприятия с «усовершенствованным обучением с подкреплением» для взаимодействия с графическими интерфейсами, как утверждает OpenAI. Этот AI-агент может «видеть» через скриншоты и «взаимодействовать» с браузером при помощи всех стандартных действий, выполняемых мышью и клавиатурой, что делает возможным работу в интернете без необходимости интеграции API.
Operator обладает способностью к самокоррекции и, если сталкивается с трудностями, предлагает пользователю взять управление на себя. Он также передает управление, если какой-либо веб-сайт требует ввод конфиденциальных данных, таких как учетные данные, и запрашивает разрешение пользователя на совершение действий, например отправку электронных писем. OpenAI утверждает, что Operator настроен на отказ выполнения вредоносных запросов и блокировку нежелательного контента.
Компания OpenAI сотрудничает с такими компаниями, как DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber, чтобы Operator соответствовал реальным потребностям пользователей и соблюдал принятые нормы. Однако компания предупреждает о возможных трудностях в функционировании инструмента, например, с «сложными интерфейсами, такими как создание презентаций или управление календарями».
В дальнейшем OpenAI планирует расширить доступ к Operator для пользователей Plus, Team и Enterprise, а также интегрировать его возможности в ChatGPT.
Источник: TheVerge