Meta уличили в манипуляции результатами ИИ-бенчмарков с помощью Llama 4

Meta уличили в манипуляции результатами ИИ-бенчмарков с помощью Llama 4 Meta уличили в манипуляции результатами ИИ-бенчмарков с помощью Llama 4

На выходных компания Meta представила две новые модели Llama 4: Scout — небольшая модель и Maverick — модель среднего размера. В Meta утверждают, что Maverick превосходит GPT-4o и Gemini 2.0 Flash по многим известным бенчмаркам.

Высокая оценка Maverick на LMArena

Реклама

Maverick быстро заняла второе место на LMArena — популярной платформе бенчмарков для искусственного интеллекта. В пресс-релизе компания Meta подчеркнула, что ELO рейтинг Maverick составил 1417, выше OpenAI’s 4o и чуть ниже Gemini 2.5 Pro. Высокий ELO рейтинг указывает на успешные результаты модели в сравнительных испытаниях.

Подозрительные различия между тестовой и публичной версиями

Meta позиционирует Llama 4 как серьезный вызов ведущим моделям от OpenAI, Anthropic и Google. Однако исследователи заметили нюансы в документации компании. Meta признала, что версия Maverick, протестированная на LMArena, отличалась от публичной. Это была экспериментальная версия, оптимизированная для диалогового взаимодействия, что впервые было отмечено в отчете TechCrunch.

Реакция и оправдания Meta

Платформа LMArena выразила недовольство, указав, что интерпретация Meta не совпала с ее ожиданиями от поставщиков моделей. LMArena обновляет политику, чтобы уточнить, что тестированные модели должны быть доступны публике в том же виде. Представитель Meta, Эшли Гэбриел, заявила, что компания экспериментирует с различными вариантами моделей. Экспериментальная версия “Llama-4-Maverick-03-26-Experimental” была оптимизирована для тестов, но теперь компании интересно, как разработчики адаптируют Llama 4 для своих нужд.

Сомнительная практика и критика

Хотя действия Meta не нарушают правила LMArena, платформа обеспокоена подобными манипуляциями и стремится предотвратить утечку данных и искажение результатов тестирования. Активная подача на бенчмарки специально оптимизированных версий осложняет реальную оценку производительности моделей. Это ставит разработчиков перед сложным выбором, так как показатели бенчмарков могут не отражать доступные для общественности возможности модели.

Ситуация с выпуском и реакция рынка

Запуск Llama 4 сопровождался задержками из-за несоответствия модели внутренним ожиданиям Meta. Этот случай подчеркивает, как бенчмарки становятся ареной сражений, а Meta стремится укрепить позиции лидера в области ИИ, даже прибегая к спорным методам.

Обновление, 7 апреля:

История была дополнена заявлением Meta.

Источник: TheVerge

Добавить комментарий

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Будьте в курсе самых важных событий

Нажимая кнопку "Подписаться", вы подтверждаете, что ознакомились с нашими условиями и соглашаетесь с ними. Политика конфиденциальности и Условия использования
Реклама