Компания Meta представила инновационный метод под названием Self-Taught Evaluator, который позволяет генеративным моделям на основе искусственного интеллекта обучаться самостоятельно, исключая необходимость вмешательства человека.
Согласно пресс-релизу компании, новый метод дает возможность моделировать синтетические данные предпочтений для модели вознаграждения, не опираясь на отзывы или оценки человека. Моделирование вознаграждения является важным элементом машинного обучения, связанным с обратной связью и оценкой.
Разработанный Meta подход включает процесс создания логических цепочек на основе последовательного процесса самосовершенствования модели. Это позволяет модели постоянно обучаться и совершенствоваться без необходимости внешнего вмешательства.
Кроме того, компания объявила о выпуске генеративной модели вознаграждения, основанной на прямой оптимизации предпочтений в инструменте машинного обучения RewardBench. Эта модель была обучена на данных без использования человеческих пояснений, что демонстрирует эффективность нового метода.
- Деятельность Meta (соцсети Facebook и Instagram) запрещена в России как экстремистская.
Источник: ПравдаРу