OpenAI создал ИИ-детектор текста, но не планирует его выпускать

06.08.2024

Компания OpenAI разработала новые инструменты для определения контента, созданного ChatGPT и его ИИ-моделями, но пока не планирует их внедрять. Организация предложила способ добавления водяных знаков на текст, сгенерированный искусственным интеллектом. Этот встроенный индикатор может помочь определить, когда текст написан ИИ. Однако OpenAI опасается, что такое решение может негативно сказаться на тех, кто использует модели ИИ в безвредных целях.

Новый метод OpenAI предполагает использование алгоритмов, способных встраивать скрытые маркеры в текст, сгенерированный ChatGPT. Хотя на глаз их не видно, инструмент будет применять специфический формат слов и фраз, указывающих на происхождение текста от ChatGPT. Очевидно, что это может быть полезным в отрасли генеративного ИИ. Водяные знаки могут играть критическую роль в борьбе с дезинформацией, обеспечении прозрачности в создании контента и сохранении целостности цифровых коммуникаций. Это похоже на уже используемую тактику для изображений, сгенерированных ИИ, таких как DALL-E 3, которые содержат метаданные о своем происхождении.

Однако слова не эквивалентны изображениям. Даже в лучших условиях, по мнению OpenAI, достаточно стороннего инструмента для перефразирования текста, созданного ИИ, чтобы водяной знак исчез. И хотя новый подход может работать во многих случаях, компания признает его ограничения и подчеркивает, что использование водяного знака не всегда целесообразно.

«Хотя он является высокоточным и эффективным против местных изменений, таких как парафразирование, он менее устойчив к глобальным изменениям, таким как перевод, переформулирование с использованием другой генеративной модели или вставка специального символа между словами с последующим его удалением — что делает обход тривиальным для злоумышленников,» — объясняет OpenAI в своем блоге. «Еще один важный риск заключается в том, что исследования показывают, что метод водяных знаков может непропорционально воздействовать на некоторые группы людей.»

Метка авторства ИИ

OpenAI опасается, что негативные последствия внедрения такой методики водяных знаков для ИИ превысят положительный эффект. Компания упоминает те, кто использует ChatGPT для повышения продуктивности, и выражает беспокойство, что это может привести к стигматизации или критике пользователей, независимо от их целей и способов использования ИИ.

Это может особенно сильно сказаться на пользователях, не говорящих на английском языке, которые используют переводы и создают контент на других языках. Водяные знаки могут создавать барьеры для таких пользователей, снижая эффективность и принятие контента, сгенерированного ИИ, в многоязычных контекстах. Потенциальное недовольство пользователей может привести к отказу от инструмента, если они узнают, что их контент легко идентифицировать как созданный ИИ.

Стоит отметить, что это не первая попытка OpenAI разработать детектор текстов, созданных ИИ. Однако предыдущий детектор был отключен через шесть месяцев, и компания пояснила, что такие инструменты в целом неэффективны. В учительском руководстве по использованию ChatGPT также нет таких опций. Тем не менее, недавние обновления показывают, что исследования в поиске идеального способа выявления текстов, созданных ИИ, без создания проблем для пользователей продолжаются.

Источник: TechRadar