Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

Gemma Scope: раскрытие механизмов языковых моделей

Gemma Scope — это открытый набор инструментов на основе разреженных автоэнкодеров для изучения внутренних механизмов моделей Gemma 2. Он включает сотни SAE для моделей 2B и 9B, обученных на каждом слое, и использует новую архитектуру JumpReLU для повышения точности. Релиз направлен на ускорение исследований интерпретируемости, способствуя созданию более безопасных ИИ-систем.

24 октября 2025 г.
7 мин
0
Визуализация внутренних процессов языковой модели с использованием разреженных автоэнкодеров

Представляем комплексный открытый набор разреженных автоэнкодеров для интерпретируемости языковых моделей.

Для разработки языковой модели искусственного интеллекта специалисты создают систему, которая обучается на огромных объемах данных без вмешательства человека. В итоге внутренние процессы таких моделей остаются загадкой даже для их создателей. Механистическая интерпретируемость представляет собой направление исследований, направленное на разгадку этих процессов. Ученые в этой области применяют разреженные автоэнкодеры как инструмент для "заглядывания" внутрь модели, чтобы лучше понять ее функционирование.

В настоящее время объявляется о запуске Gemma Scope — нового набора инструментов, предназначенного для помощи исследователям в изучении внутренних механизмов Gemma 2, нашей легковесной открытой семейства моделей. Gemma Scope включает сотни свободно доступных разреженных автоэнкодеров (SAE) для Gemma 2 9B и Gemma 2 2B. Кроме того, мы открываем исходный код Mishax — инструмента, который мы разработали и который позволил провести значительную часть работ по интерпретируемости, лежащих в основе Gemma Scope.

Мы рассчитываем, что этот релиз стимулирует более масштабные исследования в области интерпретируемости. Дальнейшие разработки могут способствовать созданию более надежных систем, улучшению мер защиты от галлюцинаций моделей и предотвращению рисков от автономных ИИ-агентов, таких как обман или манипуляция.

Интерпретация процессов внутри языковой модели

Когда пользователь задает вопрос языковой модели, она преобразует текстовый ввод в последовательность "активаций". Эти активации отражают связи между введенными словами, помогая модели устанавливать ассоциации, на основе которых формируется ответ.

По мере обработки текста активации на различных слоях нейронной сети модели представляют собой все более сложные понятия, называемые "фичами".

Например, начальные слои модели могут усваивать фактические знания, такие как то, что Майкл Джордан играет в баскетбол, в то время как более глубокие слои способны распознавать абстрактные концепции, вроде достоверности текста.

Стилизованное изображение применения разреженного автоэнкодера для интерпретации активаций модели при вспоминании факта о том, что Город Света — это Париж

Стилизованное изображение использования разреженного автоэнкодера для анализа активаций модели при извлечении факта о том, что Город Света — это Париж. Видно присутствие концепций, связанных с Францией, и отсутствие несвязанных.

Тем не менее исследователи интерпретируемости сталкиваются с фундаментальной трудностью: активации модели представляют собой смесь множества различных фич. В ранние периоды механистической интерпретируемости ученые предполагали, что фичи в активациях нейронной сети будут соответствовать отдельным нейронам, то есть узлам информации. К сожалению, на практике нейроны активируются для множества несвязанных фич. Это означает отсутствие очевидного способа определить, какие фичи входят в активацию.

Здесь на помощь приходят разреженные автоэнкодеры.

Любая активация является комбинацией лишь небольшого количества фич, хотя модель способна обнаруживать миллионы или даже миллиарды из них — то есть модель использует фичи разреженно. К примеру, языковая модель будет учитывать теорию относительности при ответе на вопрос об Эйнштейне и яйца при описании омлета, но вряд ли упомянет относительность в контексте омлета.

Разреженные автоэнкодеры используют это свойство, чтобы выявить набор возможных фич и разложить каждую активацию на ограниченное их количество. Исследователи надеются, что оптимальный способ для автоэнкодера выполнить эту задачу — найти реальные базовые фичи, которые применяет языковая модель.

Важно отметить, что на протяжении всего процесса мы, исследователи, не указываем автоэнкодеру, какие фичи искать. В результате удается обнаруживать сложные структуры, не предсказанные заранее. Однако поскольку значение обнаруженных фич не очевидно сразу, мы ищем осмысленные паттерны в примерах текста, где автоэнкодер указывает на активацию фичи.

Вот пример, в котором токены, где фича активируется, выделены градиентами синего цвета в зависимости от силы:

Примеры активаций для фичи, выявленной разреженными автоэнкодерами

Примеры активаций для фичи, обнаруженной нашими разреженными автоэнкодерами. Каждый пузырек — это токен (слово или фрагмент слова), а переменный оттенок синего показывает степень присутствия фичи. В данном случае фича, по-видимому, связана с идиомами.

Что отличает Gemma Scope

Предыдущие исследования с разреженными автоэнкодерами в основном касались анализа внутренних процессов маленьких моделей или одного слоя в более крупных. Однако для амбициозных работ по интерпретируемости требуется декодирование многослойных сложных алгоритмов в больших моделях.

Мы обучили разреженные автоэнкодеры на каждом слое и подслое выходов Gemma 2 2B и 9B, чтобы создать Gemma Scope, в результате чего получили более 400 автоэнкодеров с общим количеством свыше 30 миллионов выученных фич (хотя многие из них, вероятно, пересекаются). Этот инструмент позволит ученым изучать эволюцию фич на протяжении модели и их взаимодействие для формирования более сложных концепций.

Gemma Scope также обучена с использованием нашей новой передовой архитектуры JumpReLU SAE. Исходная архитектура разреженных автоэнкодеров испытывала трудности с балансом между обнаружением присутствующих фич и оценкой их интенсивности. Архитектура JumpReLU упрощает достижение такого баланса, существенно снижая погрешность.

Обучение такого количества разреженных автоэнкодеров стало серьезным инженерным вызовом, потребовавшим значительных вычислительных ресурсов. Мы задействовали около 15% вычислительной мощности, использованной для обучения Gemma 2 9B (за исключением ресурсов на генерацию меток для дистилляции), сохранили примерно 20 пибибайт (PiB) активаций на диске (что сопоставимо с миллионом копий английской Википедии) и создали сотни миллиардов параметров автоэнкодеров в сумме.

Стимулирование прогресса в области

Выпуская Gemma Scope, мы стремимся сделать семейство Gemma 2 оптимальным для открытых исследований механистической интерпретируемости и ускорить работу сообщества в этой сфере.

На данный момент сообщество интерпретируемости достигло значительных успехов в понимании маленьких моделей с помощью разреженных автоэнкодеров и разработке соответствующих методов, таких как каузальные интервенции, автоматический анализ цепочек, интерпретация фич и оценка разреженных автоэнкодеров. С Gemma Scope мы ожидаем, что сообщество адаптирует эти техники к современным моделям, проанализирует более сложные возможности, такие как цепочка мыслей, и найдет практические применения интерпретируемости для решения проблем вроде галлюцинаций и обхода ограничений, возникающих только в крупных моделях.