Исследование из известных университетов США показывает, что чрезмерная предобученность моделей может негативно сказаться на их производительности. Основные аспекты исследования следующие:
-
Исследователи из Карнеги-Меллона, Стэнфорда, Гарварда и Принстона оспаривают устоявшееся мнение о том, что большее количество данных для предобучения обязательно ведет к лучшей производительности в области искусственного интеллекта.
-
В новом исследовании рассмотрена концепция «катастрофического перегруза», где расширенное предобучение может ухудшить эффективность модели после ее дообучения.
- Сравнивались две версии модели OLMo-1B: одна была обучена на 2.3 триллиона токенов, а другая — на 3 триллиона. Несмотря на больший объем данных, модель с более долгим обучением показала результат на 3% хуже на тестах AlpacaEval и ARC.
Точка перегиба
-
Падение производительности связано с феноменом, названным «прогрессивная чувствительность».
-
С увеличением числа токенов модель становится более уязвимой. Даже незначительные изменения, как корректировки во время дообучения или добавление шума, могут нивелировать полученные ранее результаты.
-
Это было продемонстрировано при помощи добавления гауссового шума в предобученные модели, что показало резкое ухудшение производительности при длительном обучении.
-
Точка, в которой дополнительное обучение начинает ухудшать результаты, называется «точкой перегиба».
-
Исследование выявило, что эта точка часто наступает после 2.5 триллионов токенов в более малых моделях, таких как OLMo-1B.
- Авторы предупреждают, что «катастрофический перегруз» может быть неизбежен, особенно если задачи предобучения и дообучения не согласованы друг с другом.
Несмотря на то, что исследователи не предлагают отказываться от предобучения, они считают, что необходимо тщательно оценивать, насколько его достаточно. Они заключают: «Наши результаты подчеркивают необходимость нового подхода к масштабированию моделей, который учитывает весь процесс обучения». Для разработчиков искусственного интеллекта послание очевидно: иногда меньше значит больше.
Источник: TechRadar