Telegram-канал senior_augur - Старший Авгур: Unsorted

Старший Авгур

30 Apr 2025 13:05

Circuit Tracing: Revealing Computational Graphs in Language Models
Статья: ссылка

Часть 1

Первая из набора антропиковских статей. Она безумно большая сама по себе 😳, кроме того содержит интерактивные визуализации.
В этом посте покрыто два перехода: SAE -> CLT -> локальная заменяющая модель.
Теоретические предпосылки SAE (гипотеза суперпозиции) опустим.

🔹SAE

SAE (sparse autoencoders, разреженные автокодировщики) — довольно популярная техника механистической интерпретации. Мы берём активации модели (например, выход MLP). Эти активации мы хотим отобразить в разреженный вектор высокой размерности. Для этого мы учим двухслойную нелинейную сетку с одним промежуточным вектором с размерностью выше оригинальных активаций. Реконструируем активации с MSE лоссом. Разреженность можно обеспечить по-разному, например через L1 штраф (как в Lasso) или через TopK, то есть прямой отбор k наибольших значений. Или через JumpReLU.

Для больших моделей учить SAE сложно и долго, поэтому есть уже обученные наборы, такие как Gemma Scope. Есть и Нейронпедия, платформа для визуализации разных наборов SAE. Там можно подставить свой текст и посмотреть, какие фичи на каких токенах активировались для разных моделей и разных наборов.

Исследования SAE-подобных инструментов долгое время были мейнстримом механистической интерпретации. Однако, недавно DeepMind снизил приоритет вокруг них. Они попытались применить SAE для чего-то реально полезного, но оказалось, что простые линейные зонды справляются лучше. Кроме того, есть и другие работы, которые показывают серьёзные ограничения SAE. Это не означает, что DeepMind полностью откажется от SAE, но теперь они гораздо более скептично к ним настроены.

🔹CLT

Транскодеры — это SAE-подобный инструмент, только в качестве входа выступают входные активации MLP, а в качестве выхода — выходные. То есть мы полностью заменяем MLP на разреженную версию. Это позволяет нам создавать альтернативные версии модели, в которых какие-то фичи изменены. Антропики же используют не просто отдельные послойные транскодеры, но межслойные транскодеры (cross-layer transcoders, CLT). Это означает, что при реконструкции выходных активаций на слое L используются все разреженные векторы с более нижних слоёв.

Так вот, они как-то обучают эти самые CLT и при замене оригинальных MLP на разреженные аналоги проверяют, насколько сильно ломается модель. Для 18-слойной модели самые жирные их CLT дают тот же топ-1 токен в ~50% случаев. Ещё раз, полученная таким образом заменяющая модель — это аппроксимация оригинальной модели, что несколько обесценивает любые результаты, полученные через её анализ 😫

🔹Локальная заменяющая модель

Поэтому эту модель "исправляют" через добавление "тёмной материи" (термин из статьи, это не я придумал) — констант ошибок реконструкции для заданного промпта. Так вводится понятие локальной заменяющей модели, в которой для заданного промпта все ошибки реконструкции исправляются добавлением констант, а все паттерны внимания заморожены (=веса внимания не вычисляются, а зафиксированы для каждого слоя и токена). Таким образом, для этого конкретного промпта локальная заменяющая модель ведёт себя в точности как оригинал. При этом получившаяся модель — это практически линейная полносвязная сетка (с вычисляемыми "виртуальными" весами), где единственные нелинейности есть внутри CLT. Это позволяет производить принципиальную атрибуцию фичей.

Но даже при идеальном воспроизведении активаций и выходов для заданного промпта, локальная заменяющая модель может использовать механизмы, отличные от исходной модели. Степень сходства механизмов называется авторами "механистической верностью" (mechanistic faithfulness), и измеряют её через пертурбационные эксперименты.

🔹Промежуточный вывод

CLT действительно выглядят прикольнее стандартных SAE. Но вот насколько можно верить объяснениям, полученным таким образом — вопрос открытый. Да, ребята пытаются это численно оценить, но где граница, на которой можно сказать "да, верим"? 🤨