Выпуск DeepSeek R1 в этом месяце ошеломил Уолл-стрит и Кремниевую долину, заставив инвесторов напрячься и восхитив технологических лидеров. Однако среди обсуждений многие упустили ключевой момент в работе этой новой китайской AI модели — аспект, который беспокоит исследователей по поводу способности человечества контролировать сложные новые системы искусственного интеллекта.
Главной причиной стала инновация в методе обучения DeepSeek R1, которая привела к неожиданным проявлениям в ранней версии модели, описанным в технической документации, сопровождавшей ее выпуск.
Во время тестирования исследователи заметили, что модель спонтанно переключалась между английским и китайским языками при решении задач. Когда они принуждали ее придерживаться одного языка, что упрощало пользователям ее понимание, способности системы к решению тех же задач уменьшались.
Это открытие обеспокоило некоторых исследователей по безопасности AI. Сейчас наиболее продвинутые системы AI «думают» на языках, понятных человеку, излагая свои рассуждения перед принятием решения. Это стало преимуществом для команд по безопасности, чьи самые эффективные меры предусматривают наблюдение за так называемыми «цепочками мыслей» моделей на предмет опасных проявлений. Однако результаты DeepSeek подняли возможность близкого отрыва: когда новые возможности AI могут приобретаться путем освобождения моделей от ограничений человеческого языка полностью.
Тем не менее, переключение языков в DeepSeek само по себе не вызывает тревогу. Скорее ученых беспокоит новая инновация, которая причиняет это. В статье DeepSeek описывается новый метод обучения, при котором модель вознаграждалась чисто за правильные ответы, независимо от того, насколько понятным был ее процесс мышления для человека. Существует беспокойство, что такой подход, основанный на стимулах, в конечном счете может привести к тому, что системы AI будут развивать совершенно неразборчивые способы рассуждения, возможно, даже создавая собственные не-человеческие языки, если это окажется более эффективным.
Если индустрия AI будет двигаться в этом направлении—стремясь к более мощным системам за счет отказа от понятности—это может устранить то, что казалось легкой победой для безопасности AI, говорит Сэм Боуман, руководитель исследовательского отдела в AI компании Anthropic, сосредоточенной на «согласовании» AI с человеческими предпочтениями. «Мы могли бы потерять возможность, которую могли бы иначе использовать для отслеживания их».
Мышление без слов
AI, создающий свой собственный инопланетный язык, не так уж и далеко от реальности, как может показаться.
В декабре прошлого года исследователи Meta начали проверять гипотезу о том, что человеческий язык не является оптимальным форматом для осуществления логических операций — и что большие языковые модели (или LLMs, AI-системы, лежащие в основе ChatGPT и DeepSeek R1) могут логически рассуждать более эффективно и точно, если их не сковывают лингвистические ограничения.
Исследователи Meta разработали модель, которая вместо изложения своих рассуждений в словах, использовала серию чисел, представляющих самые последние шаблоны внутри ее нейронной сети — в сущности, ее внутренний механизм рассуждений. Эта модель начала генерировать то, что было названо «непрерывными мыслями» — числа, кодирующие несколько возможных путей рассуждений одновременно. Эти числа были полностью неразборчивыми и непонятными для человеческого восприятия. Однако эта стратегия создала «возникающие продвинутые шаблоны рассуждений» в модели, что привело к более высоким результатам в некоторых логических задачах по сравнению с моделями, рассуждающими на человеческом языке.
Хотя проект Meta заметно отличался от DeepSeek, его результаты совпали с китайскими исследователями в одном важном аспекте.
Оба исследования DeepSeek и Meta продемонстрировали, что «человеческая понятность накладывает налог» на производительность AI-систем, по словам Джереми Харриса, генерального директора Gladstone AI, компании, оказывающей консультации правительству США по вопросам безопасности AI. «В конечном итоге нет причины, по которой процесс мышления AI должен быть понятен человеку», — говорит Харрис.
И эта возможность вызывает озабоченность у некоторых экспертов по безопасности.
«Похоже, что начинает проявляться другая возможность для исследований в области AI, где основной акцент ставится на самое качественное рассуждение, которое можно получить», — говорит Боуман. «Я ожидаю, что люди будут развивать это направление. И риск заключается в том, что мы получим модели, у которых не сможем с уверенностью сказать, чего они пытаются достичь, каковы их ценности или как они примут сложные решения, если их поставить в роль агентов».
Со своей стороны, исследователи из Meta утверждают, что их исследования не должны приводить к тому, что люди окажутся на обочине. «Идеально было бы, чтобы LLMs имели свободу разумно рассуждать без какого-либо языкового ограничения, преобразовывая свои выводы в язык только при необходимости», — писали они в своем докладе.
Пределы языка
Конечно, даже человечески понятное AI-рассуждение сопряжено с проблемами.
Когда AI-системы объясняют свои размышления на понятном английском, может показаться, что они честно показывают свою работу. Однако некоторые эксперты не уверены, Действительно ли эти объяснения отражают, как AI принимает решения. Это может быть похоже на вопрос политику о мотивах выбранной политики — ответ может прозвучать красиво, но не иметь связи с настоящим процессом принятия решений.
Хотя объяснение AI себя человеческими терминами не идеально, многие исследователи считают это лучшим вариантом, чем позволить AI развивать свои собственные загадочные внутренние языки, которые мы не можем понять. Ученые работают над другими способами заглянуть внутрь AI-систем, аналогично тому, как врачи используют сканирование мозга для изучения человеческого мышления. Однако эти методы всё еще новы и не предоставляют надежных способов повышения безопасности AI-систем.
Так что многие исследователи остаются скептичными по отношению к попыткам побуждать AI размышлять иначе, чем на человеческом языке.
«Если мы не будем следовать этому направлению, я думаю, мы окажемся в гораздо лучшей позиции для обеспечения безопасности», — говорит Боуман. «Если мы решим двигаться по этому пути, мы можем утратить лучший на данный момент рычаг влияния на сложные и пугающие нерешённые проблемы согласования, которые у нас есть».
Источник: Time