Чрезмерное обучение может пагубно сказаться на крупных языковых моделях ИИ

cuJ2nHdA2cLngX4bhsHsye 1200 80 cuJ2nHdA2cLngX4bhsHsye 1200 80

Исследование из известных университетов США показывает, что чрезмерная предобученность моделей может негативно сказаться на их производительности. Основные аспекты исследования следующие:

  • Исследователи из Карнеги-Меллона, Стэнфорда, Гарварда и Принстона оспаривают устоявшееся мнение о том, что большее количество данных для предобучения обязательно ведет к лучшей производительности в области искусственного интеллекта.

    Реклама

  • В новом исследовании рассмотрена концепция «катастрофического перегруза», где расширенное предобучение может ухудшить эффективность модели после ее дообучения.

  • Сравнивались две версии модели OLMo-1B: одна была обучена на 2.3 триллиона токенов, а другая — на 3 триллиона. Несмотря на больший объем данных, модель с более долгим обучением показала результат на 3% хуже на тестах AlpacaEval и ARC.

Точка перегиба

  • Падение производительности связано с феноменом, названным «прогрессивная чувствительность».

  • С увеличением числа токенов модель становится более уязвимой. Даже незначительные изменения, как корректировки во время дообучения или добавление шума, могут нивелировать полученные ранее результаты.

  • Это было продемонстрировано при помощи добавления гауссового шума в предобученные модели, что показало резкое ухудшение производительности при длительном обучении.

  • Точка, в которой дополнительное обучение начинает ухудшать результаты, называется «точкой перегиба».

  • Исследование выявило, что эта точка часто наступает после 2.5 триллионов токенов в более малых моделях, таких как OLMo-1B.

  • Авторы предупреждают, что «катастрофический перегруз» может быть неизбежен, особенно если задачи предобучения и дообучения не согласованы друг с другом.

Несмотря на то, что исследователи не предлагают отказываться от предобучения, они считают, что необходимо тщательно оценивать, насколько его достаточно. Они заключают: «Наши результаты подчеркивают необходимость нового подхода к масштабированию моделей, который учитывает весь процесс обучения». Для разработчиков искусственного интеллекта послание очевидно: иногда меньше значит больше.

Источник: TechRadar

Добавить комментарий

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Будьте в курсе самых важных событий

Нажимая кнопку "Подписаться", вы подтверждаете, что ознакомились с нашими условиями и соглашаетесь с ними. Политика конфиденциальности и Условия использования
Реклама