Главная страницаТехнологииВ данный момент тестирование ИИ в основном проводится на английском языке. Это рискованно.

Технологии

В данный момент тестирование ИИ в основном проводится на английском языке. Это рискованно.

24.07.2024

За последний год правительства, академические круги и промышленность вложили значительные ресурсы в исследование потенциальных угроз передовых технологий искусственного интеллекта (ИИ). Однако один существенный аспект продолжает оставаться без должного внимания: в настоящее время основные тесты и модели ИИ, в первую очередь, ограничены использованием английского языка.

Развитие ИИ может приводить к негативным последствиям на многих языках, но сосредоточение усилий только на английском языке оставляет множество вопросов без ответа и не учитывает тех, кто наиболее подвержен его вреду.

После выхода ChatGPT в ноябре 2022 года разработчики ИИ были удивлены одной из возможностей модели: она могла «говорить» на более чем 80 языках, а не только на английском. В течение последнего года комментаторы отмечали, что GPT-4 превосходит Google Translate по качеству перевода на многие языки. Однако фокус на тестировании исключительно на английском языке оставляет вероятным, что возможности моделей ИИ, которые важны для других языков, могут быть упущены.

В этом году половина мира примет участие в выборах, и эксперты выражают обеспокоенность возможностями ИИ стать «супер распространителями дезинформации», а также угрозами для целостности выборов. Угрозы варьируются от «дипфейков и клонирования голосов» до «манипуляции личностью и создания фейковых новостей с помощью ИИ.» Недавний выпуск «мультимодельных» систем ИИ, таких как GPT-4o и Gemini Live от OpenAI и Google, которые могут «говорить, видеть и слышать», только усугубляет эту угрозу. Тем не менее, практически все обсуждения по политике, включая исторический AI Safety Summit в Сеуле в мае и выпуск долгожданной AI Roadmap в Сенате США, игнорируют неанглоязычные языки.

Это не просто вопрос о том, чтобы оставить некоторые языки вне учета. В США исследования последовательно показывают, что сообщества, для которых английский является вторым языком (в основном испаноязычные), более уязвимы для дезинформации, чем носители английского языка. Подобные результаты были получены для мигрантов как в Соединенных Штатах, так и в Европе, где беженцы становились целями и жертвами таких кампаний. К тому же, модерация контента в социальных сетях преимущественно направлена на английский язык. В то время как 90% пользователей Facebook находятся за пределами США и Канады, модераторы тратят только 13% своего времени на проблемы с дезинформацией за пределами США. Недавние неудачи платформ социальных сетей в модерации языка ненависти в Мьянме, Эфиопии и других странах, находящихся в состоянии конфликта и нестабильности, также подчеркивают разрыв в языковых усилиях.

Даже когда политики, корпоративные руководители и эксперты по ИИ готовятся бороться с дезинформацией, созданной ИИ, их усилия в значительной мере игнорируют тех, кто наиболее уязвим к этим ложным кампаниям, включая мигрантов и жителей Глобального Юга.

Эта проблема особенно тревожна, если учитывать потенциальные применения ИИ для массовых человеческих жертв, например, при разработке и запуске биологического оружия. В 2023 году эксперты выразили опасения, что крупные языковые модели (LLM) могут быть использованы для синтеза и распространения патогенов, способных вызвать пандемию. С тех пор было опубликовано множество научных работ, посвященных этой проблеме, как внутри, так и вне промышленности. Общим выводом этих отчетов является то, что современное поколение ИИ-систем не лучше, чем поисковые системы, такие как Google, в предоставлении вредоносной информации, которая может быть использована для создания биологического оружия.

Что удивительно, так это почти полное отсутствие тестирования на неанглийских языках в этих исследованиях. Это особенно непонятно, поскольку большинство западных усилий по борьбе с негосударственными акторами сосредоточены в регионах мира, где английский язык редко используется как первый. Дело не в том, что пушту, арабский, русский или другие языки могут привести к более опасным результатам, чем английский. Речь идет о том, что использование этих языков представляет собой преимущество для негосударственных акторов, которые лучше владеют неанглийскими языками.

Языковые модели часто оказываются лучшими переводчиками по сравнению с традиционными сервисами. Террористу гораздо проще просто ввести свой запрос в языковую модель на своем языке и сразу получить ответ. В противном случае приходится полагаться на устаревшие поисковые машины на своем языке, или же проходить сложный процесс перевода и повторного перевода, что может привести к потере смысла. Таким образом, ИИ-системы делают негосударственных акторов такими же эффективными, как если бы они свободно говорили на английском языке. Насколько это улучшает их возможности, мы узнаем в ближайшие месяцы.

Этот вопрос — что передовые системы ИИ могут предоставить результаты на любом языке, как на английском, — имеет широкие приложения. Наиболее наглядный пример — это фишинг, целенаправленное использование манипулятивных техник для получения информации или денег. С момента популяризации «аферы нигерийского принца» эксперты указывали на правило: если сообщение написано на ломаном английском с грамматическими ошибками, скорее всего, это мошенничество. Теперь такие сообщения могут быть созданы теми, кто не владеет английским, просто введя запрос на родном языке и получив ответ на идеальном английском. Это не учитывает, насколько ИИ-системы могут способствовать мошенничествам, где используется один и тот же язык на входе и выходе.

Очевидно, что «языковой вопрос» в ИИ имеет первостепенное значение, и есть множество методов его решения. Это включает новые рекомендации и требования для тестирования моделей ИИ от государственных и академических учреждений, а также подталкивание компаний к разработке новых стандартов тестирования, которые будут применимы для неанглоязычных языков. Важно, чтобы мигранты и жители Глобального Юга были лучше интегрированы в эти усилия. Коалиции, работающие над безопасностью в мире от ИИ, должны начать более активно учитывать культурное разнообразие.

Источник: Time