Meta* анонсирует инновационный подход к автономному обучению искусственного интеллекта.

18.10.2024

Компания Meta представила инновационный метод под названием Self-Taught Evaluator, который позволяет генеративным моделям на основе искусственного интеллекта обучаться самостоятельно, исключая необходимость вмешательства человека.

Согласно пресс-релизу компании, новый метод дает возможность моделировать синтетические данные предпочтений для модели вознаграждения, не опираясь на отзывы или оценки человека. Моделирование вознаграждения является важным элементом машинного обучения, связанным с обратной связью и оценкой.

Разработанный Meta подход включает процесс создания логических цепочек на основе последовательного процесса самосовершенствования модели. Это позволяет модели постоянно обучаться и совершенствоваться без необходимости внешнего вмешательства.

Кроме того, компания объявила о выпуске генеративной модели вознаграждения, основанной на прямой оптимизации предпочтений в инструменте машинного обучения RewardBench. Эта модель была обучена на данных без использования человеческих пояснений, что демонстрирует эффективность нового метода.