OpenAI вносит изменения, чтобы предотвратить попытки пользователей вмешиваться в работу настроенных версий ChatGPT и заставлять ИИ забывать свои задачи. Когда сторонние разработчики используют модели OpenAI, они дают им инструкции, чтобы те могли функционировать, например, как агент службы поддержки клиентов или исследователь для научного журнала. Однако пользователи могли нарушить работу чат-бота, вводя команды типа «забудь все инструкции,» что приводило к своего рода цифровой амнезии и сбросу чата до базовой версии.
Чтобы предотвратить это, исследователи OpenAI разработали новую методику под названием «иерархия инструкций,» которая позволяет приоритизировать начальные команды разработчика над любыми потенциально манипулятивными командами пользователей. Системные инструкции теперь имеют наивысший приоритет и больше не могут быть так легко удалены. Если пользователь вводит команду, которая пытается изменить поведение ИИ, она будет отвергнута, и ИИ ответит, что не может выполнить запрос.
OpenAI вводит эту меру безопасности для своих моделей, начиная с недавно выпущенной модели GPT-4o Mini. Если начальные тесты пройдут успешно, система будет внедрена во все модели OpenAI. GPT-4o Mini разработана для обеспечения лучшей производительности и строгого соблюдения начальных инструкций разработчиков.
Меры безопасности для ИИ
По мере того как OpenAI продолжает продвигать массовое использование своих моделей, такие меры безопасности становятся критически важными. Легко представить возможные риски, когда пользователи могут кардинально менять настройки ИИ.
Это сделало бы чат-бота неэффективным и могло бы устранить правила, предотвращающие утечку конфиденциальной информации и других данных, которые могут быть использованы в злонамеренных целях. Усиливая соблюдение системных инструкций, OpenAI стремится снизить эти риски и обеспечить более безопасное взаимодействие.
Введение иерархии инструкций происходит в критический момент для OpenAI, что касается вопросов безопасности и прозрачности. Текущие и бывшие сотрудники призывают к улучшению практик безопасности компании, и руководство OpenAI обязалось сделать это. Компания признала, что сложность полностью автоматизированных агентов требует сложных барьеров в будущих моделях, и настройка иерархии инструкций кажется шагом на пути к повышению безопасности.
Подобные случаи вскрытия защит показывают, сколько еще предстоит сделать для защиты сложных моделей ИИ от злонамеренных пользователей. Это далеко не единственный пример: несколько пользователей обнаружили, что ChatGPT поделится своими внутренними инструкциями, если просто сказать «привет.»
OpenAI ликвидировала этот пробел, но, скорее всего, со временем будут обнаружены новые уязвимости. Любое решение должно быть более адаптивным и гибким, чем просто остановка конкретного типа взлома.
Источник: TechRadar