OpenAI сообщает, что их новейшая модель GPT-4o имеет средний уровень риска

10.08.2024

OpenAI представила документ под названием «Системная карта GPT-4o», в котором подробно описаны меры безопасности и оценки рисков, проведенные перед выпуском последней модели.

GPT-4o был выпущен в мае этого года и, как обычно для таких случаев, перед релизом к проверке модели привлекли внешнюю группу экспертов по безопасности, занимающихся поиском уязвимостей. Эти специалисты исследовали возможные риски, такие как создание несанкционированных голосовых клонов, генерация эротического и насильственного контента, а также воспроизведение защищенных авторским правом аудиофайлов. Сейчас результаты этих исследований были опубликованы.

Согласно внутренним оценкам OpenAI, GPT-4o получил уровень риска «средний». Общий уровень риска был определен по наивысшему из четырех категорий: кибербезопасность, биологические угрозы, убеждение и автономность модели. Все категории, кроме убеждения, были оценены как низкорисковые. Однако в категории «убеждение» были обнаружены образцы текста, созданного моделью, которые оказались более убедительными, чем тексты, написанные людьми — хотя в общем-то образцы модели не были более убедительными.

Представитель OpenAI, Линдси МакКоллум Реми, в интервью The Verge объяснила, что система включает оценки готовности, проведенные внутренней командой, а также внешними тестировщиками, которые указаны на сайте компании как Model Evaluation and Threat Research (METR) и Apollo Research — обе эти группы занимаются оценкой AI-систем.

Кроме того, компания выпускает высокоэффективную многомодальную модель накануне президентских выборов в США. Это создает явные риски, что модель может случайно распространить дезинформацию или быть использована злоумышленниками, даже если OpenAI подчеркивает тестирование реальных сценариев для предотвращения злоупотреблений.

Многие эксперты требуют от OpenAI большей прозрачности не только в отношении данных, на которых обучалась модель (например, использовалась ли информация с YouTube?), но и в отношении проведенных тестов безопасности. В Калифорнии, где расположены OpenAI и многие другие ведущие AI лаборатории, сенатор Скотт Винер пытается провести законопроект, который регулировал бы использование крупных языковых моделей и накладывал юридическую ответственность на компании, если их AI используется во вредоносных целях. Если этот законопроект будет принят, перед выпуском моделей OpenAI придется проходить оценку рисков, предписанную штатом. Но главный вывод из «Системной карты GPT-4o» заключается в том, что, несмотря на привлечение внешних экспертов, большая часть оценки все же остается на усмотрение самой OpenAI.

Источник: TheVerge