Искусственный интеллект становится умнее, а новые тесты стараются не отставать.

27.12.2024

Вопреки своему опыту, разработчики систем искусственного интеллекта не всегда сразу понимают, на что способны их самые современные системы. Чтобы это выяснить, системы подвергаются различным тестам — обычно называемым оценочными заданиями или «эвалами», — которые помогают определить их пределы. Однако из-за быстрого прогресса в этой области, современные системы регулярно получают высокие баллы на многих популярных тестах, таких как SATs и экзамен на получение адвокатской лицензии в США, что затрудняет оценку скорости их улучшения.

В ответ на это появились новые, более сложные эвалы, созданные компаниями, некоммерческими организациями и правительствами. Тем не менее, даже на самых продвинутых тестах системы ИИ делают удивительные успехи. В ноябре некоммерческий исследовательский институт Epoch AI представил набор чрезвычайно сложных математических задач под названием FrontierMath, разработанных в сотрудничестве с ведущими математиками, на которых текущие модели набрали всего 2%. Всего через месяц новейшая модель OpenAI o3 получила результат 25,2%, что ее создатели описывают как «значительно лучше, чем ожидалось сразу после релиза».

На фоне быстрого прогресса эти новые эвалы могут помочь миру понять, на что способны передовые системы ИИ. С учетом того, что многие специалисты обеспокоены возможными рисками будущих систем в области кибербезопасности и биотерроризма, они могут служить ранними сигналами предупреждения в случае появления таких угроз в будущем.

Ранние системы ИИ оценивались по выполнению конкретных задач, таких как классификация изображений или игры в игры, а время между созданием эталонного теста и достижением им человеком сопоставимого результата измерялось годами. Например, прошло пять лет, прежде чем системы ИИ превзошли человека на конкурсе ImageNet. Лишь в 2017 году система ИИ (AlphaGo от Google DeepMind) была способна победить ведущего игрока в мире по игре Го почти через 50 лет после того, как была написана первая программа, пытающаяся решить эту задачу.

Разрыв во времени между введением эталона и его освоением значительно сократился в последние годы. Например, тест GLUE, разработанный для проверки способности ИИ понимать естественный язык, был решен за год. В ответ был создан более сложный тест SuperGLUE, и в течение двух лет системы ИИ смогли достичь на нем результатов, сопоставимых с человеческими.

Эвалы приобретают разные формы, а их сложность растет вместе с развитием моделей. Практически все крупные лаборатории ИИ тестируют свои модели перед выпуском, проверяя их на способность выпускать вредоносные результаты, обходить меры безопасности или иным образом проявлять нежелательное поведение. В прошлом году компании, включая OpenAI, заключили добровольные обязательства перед администрацией Байдена подвергать свои модели внутреннему и внешнему тестированию для выявления потенциальных рисков.

Другие испытания оценивают специфические возможности, например, способность к программированию, или оценивают потенциально опасное поведение, такое как убеждение или крупномасштабные биологические атаки.

Пожалуй, самый популярный современный эталон — это Measuring Massive Multitask Language Understanding (MMLU), который состоит из множества вопросов по множеству академических дисциплин. Модель GPT-4o от OpenAI, выпущенная в мае, достигла показателя 88%, а последняя модель компании набрала 92,3%.

Однако проектирование эвалов для измерения возможностей передовых систем ИИ крайне сложно. Необходимо придерживаться научного подхода, что часто противоречит реалистичности, поскольку реальный мир часто сильно отличается от лабораторных условий. Проблемой также является загрязнение данных, которое может возникнуть, когда ответы на тест содержатся в обучающих данных ИИ, что позволяет ему восстанавливать их на основе изученных данных, а не рассуждений с нуля.

В ответ на эти вызовы разрабатываются новые, более сложные эвалы. Например, эталонный набор FrontierMath от Epoch AI включает около 300 оригинальных математических задач. Еще один ориентированный на более длительный срок жизни эталон создан в сотрудничестве между Центром безопасности ИИ и Scale AI. А оценка RE-Bench моделирует выполнение реальных задач машинного обучения.

Эти результаты не означают, что текущие системы ИИ могут автоматизировать исследования и разработку ИИ. Однако, учитывая важность таких технологий для национальной безопасности, их развитие требует внимательного контроля и оценки. Даже несмотря на тот факт, что системы ИИ успешно проходят многие текущие тесты, они продолжают бороться с задачами, которые были бы просты для людей.

Новые эвалы, простые и сложные, появляются каждый день. Политика в области ИИ все больше опирается на их результаты, и крупные лаборатории ИИ берут на себя обязательства останавливать выпуск своих моделей, если оценки выявляют какие-либо особенно тревожные вредные свойства. На основе этих добровольных обязательств Институты безопасности ИИ начали оценивать передовые модели перед их развертыванием.

Однако на данный момент нет обязательных требований к проведению сторонних тестирований ведущих моделей, хотя такие обязательства должны существовать. Это стало бы основой более сильной безопасности при выпуске моделей ИИ, позволив бы лабораториям показать свою осторожность в тестировании моделей, уменьшая их ответственность.

Источник: Time