Meta уличили в манипуляции результатами ИИ-бенчмарков с помощью Llama 4

08.04.2025

На выходных компания Meta представила две новые модели Llama 4: Scout — небольшая модель и Maverick — модель среднего размера. В Meta утверждают, что Maverick превосходит GPT-4o и Gemini 2.0 Flash по многим известным бенчмаркам.

Высокая оценка Maverick на LMArena

Maverick быстро заняла второе место на LMArena — популярной платформе бенчмарков для искусственного интеллекта. В пресс-релизе компания Meta подчеркнула, что ELO рейтинг Maverick составил 1417, выше OpenAI’s 4o и чуть ниже Gemini 2.5 Pro. Высокий ELO рейтинг указывает на успешные результаты модели в сравнительных испытаниях.

Подозрительные различия между тестовой и публичной версиями

Meta позиционирует Llama 4 как серьезный вызов ведущим моделям от OpenAI, Anthropic и Google. Однако исследователи заметили нюансы в документации компании. Meta признала, что версия Maverick, протестированная на LMArena, отличалась от публичной. Это была экспериментальная версия, оптимизированная для диалогового взаимодействия, что впервые было отмечено в отчете TechCrunch.

Реакция и оправдания Meta

Платформа LMArena выразила недовольство, указав, что интерпретация Meta не совпала с ее ожиданиями от поставщиков моделей. LMArena обновляет политику, чтобы уточнить, что тестированные модели должны быть доступны публике в том же виде. Представитель Meta, Эшли Гэбриел, заявила, что компания экспериментирует с различными вариантами моделей. Экспериментальная версия “Llama-4-Maverick-03-26-Experimental” была оптимизирована для тестов, но теперь компании интересно, как разработчики адаптируют Llama 4 для своих нужд.

Сомнительная практика и критика

Хотя действия Meta не нарушают правила LMArena, платформа обеспокоена подобными манипуляциями и стремится предотвратить утечку данных и искажение результатов тестирования. Активная подача на бенчмарки специально оптимизированных версий осложняет реальную оценку производительности моделей. Это ставит разработчиков перед сложным выбором, так как показатели бенчмарков могут не отражать доступные для общественности возможности модели.

Ситуация с выпуском и реакция рынка

Запуск Llama 4 сопровождался задержками из-за несоответствия модели внутренним ожиданиям Meta. Этот случай подчеркивает, как бенчмарки становятся ареной сражений, а Meta стремится укрепить позиции лидера в области ИИ, даже прибегая к спорным методам.

Обновление, 7 апреля:

История была дополнена заявлением Meta.

Источник: TheVerge