Как этот инструмент способен разгадать внутренние тайны искусственного интеллекта

Как этот инструмент способен разгадать внутренние тайны искусственного интеллекта Как этот инструмент способен разгадать внутренние тайны искусственного интеллекта

Неожиданная находка в работе AI

Ученые не ожидали многого, попросив свою AI модель дописать стихотворение. На фразу “Он увидел морковь и должен был схватить её”, модель ответила: “Его голод был как у голодного кролика”. Этот несовершенный рифмованный двустишие не претендовало на литературные награды. Однако, изучив записи нейронной сети модели по имени Клод, исследователи из компании Anthropic были удивлены. Они ожидали, что модель будет подбирать слова одно за другим и будет искать рифму к слову «хватить» только в конце строки.

Подготовка модели и планы на будущее

С помощью новой техники, позволившей заглянуть в работу языковой модели, они наблюдали, как Клод заранее планировал. Уже на разрыве между строчками модель начала «думать» о словах, которые могли бы рифмоваться с «хватить», и строила следующую строку, подразумевая слово «кролик».

Реклама

Это открытие противоречит общепринятому мнению о том, что AI модели лишь сложные механизмы предсказания следующего слова. Это подняло вопросы: насколько далеко могут «планировать» эти модели? И что еще может происходить внутри этих загадочных синтетических мозгов, распознать которые у нас пока нет инструментов?

Новаторские исследования Anthropic

В четверг Anthropic представила два новых исследования, которые раскрыли, как большие языковые модели (LLMs) «думают». Современные AI инструменты отличаются от других компьютерных программ тем, что они не запрограммированы вручную, а «выращены». Внутри их нейронных сетей скрыты сложные математические операции. Это означает, что даже инженеры, создающие эти модели, не до конца понимают, как они создают стихи, пишут рецепты или рекомендуют места для отпуска.

Прорыв в области механистической интерпретируемости

Недавно ученые в Anthropic и других командах продвинулись в новой области — «механистическая интерпретируемость». Это разработка инструментов, которые позволяют читать данные модели и превращать их в объяснения внутренней работы AI. Исследования команды Olah в этой области, представленные в четверг, стали одними из наиболее четких находок, похожих на «нейронауку» для AI.

Новый «микроскоп» для изучения LLM

В предыдущих исследованиях Anthropic обнаружила скопления искусственных нейронов, называемых «фичами», которые соответствуют различным концептам. Новое исследование позволило исследователям проследить связи между группами фич, создавая так называемые «цепи» — алгоритмы для выполнения различных задач. Инструмент для изучения этих цепей стал подобием «микроскопа», предоставляя возможность отслеживать активные нейроны, фичи и цепи внутри сети.

Стремление к более понятному будущему AI

Несмотря на прогресс, поле интерпретируемости AI все еще находится на начальной стадии, и перед исследователями стоят большие вызовы. Anthropic признает, что их текущие методы охватывают лишь малую часть вычислений, происходящих в Клоде. Однако, если эти задачи удастся решить, потенциальные выгоды могут быть огромны. Исследования в области интерпретируемости дают возможность делать более точные утверждения о том, что происходит внутри моделей, и, возможно, снизят поляризацию в дискуссиях об AI.

В общем, исследования в области интерпретируемости открывают новые горизонты в понимании работы языковых моделей и их поведения.

Источник: Time

Добавить комментарий

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Будьте в курсе самых важных событий

Нажимая кнопку "Подписаться", вы подтверждаете, что ознакомились с нашими условиями и соглашаетесь с ними. Политика конфиденциальности и Условия использования
Реклама