Transformer с циклами и памятью улучшил математику

Немецкие ученые позволили моделям Transformer самим определять, сколько раз обдумывать задачу. В сочетании с дополнительной памятью такой подход заметно превосходит более крупные модели в математических задачах.

Языковые модели способны рассуждать поэтапно благодаря промтам с цепочкой мыслей, но каждый промежуточный шаг требует лишних токенов. Циклические трансформеры предлагают иной путь: они многократно запускают один и тот же блок вычислений на внутренних представлениях, не генерируя промежуточный текст. Это экономит параметры, но снижает емкость хранения, поскольку модель располагает меньшим числом уникальных весов для знаний.

Специалисты из Lamarr Institute, Fraunhofer IAIS и Университета Бонна проверили, можно ли устранить этот компромисс. Их архитектура объединяет два механизма: адаптивные циклы, где каждый слой трансформера с помощью обученного механизма остановки сам решает, сколько повторений выполнить, и банки памяти, которые добавляют внешние знания.

Базовая модель — трансформер только с декодером, 12 слоев, около 200 миллионов параметров, обучена на 14 миллиардах токенов из дедуплицированного датасета FineWeb Edu. В циклических версиях каждый слой может выполнять до 3, 5 или 7 итераций. Банки памяти содержат 1024 локальных слота на слой и 512 глобальных общих слота, что добавляет примерно 10 миллионов параметров, как указано в исследовании.

Сравнение обычного трансформера, циклической модели и комбинированной с памятью — Обычный трансформер (слева) пропускает данные через каждый слой один раз. Циклическая модель (посередине) повторяет блоки несколько раз. Комбинированная (справа) использует локальную и глобальную память. Изображение: Frey et al.

Циклы улучшают математику, память восполняет пробелы в знаниях

Результаты демонстрируют: возможность повторять вычисления до трех раз сильно повышает успехи в математике. Циклическая модель набирает на 22 процента больше баллов, чем базовая без циклов. Особенно выигрывают сложные категории вроде Precalculus (плюс 31 процент) и Intermediate Algebra (плюс 26 процентов). А вот в задачах на повседневные знания — вроде ситуаций в обществе или физической интуиции — циклы почти не помогают. При большем числе итераций показатели даже немного падают.

Для сравнения авторы противопоставили свою 12-слойную модель с тройными циклами обычной 36-слойной модели с тем же вычислительным расходом, но без циклов. Несмотря на треть от числа слоев, циклическая версия опережает на 6,4 процента по математическим тестам. Циклы эффективнее лишних слоев для математического мышления, заключают исследователи.

Банки памяти решают другую задачу. Повседневные знания нельзя создать повторными размышлениями — их нужно хранить. Эти банки как раз дают дополнительный объем, частично устраняя пробелы, которые циклы сами по себе не закроют. В итоге модель прибавляет еще 4,2 процента по математике и 2 процента по повседневным знаниям по сравнению с версией без памяти, говорится в исследовании.

Ранние слои экономят, поздние работают интенсивнее

Хотя модель не получает явного штрафа за число циклов, она сама развивает специализацию: ранние слои повторяют блоки минимально и почти не трогают память. Поздние слои, напротив, чаще циклируют и активнее используют банки памяти.

Распределение числа циклов по слоям трансформера во время обучения — Поздние слои (темно-синий) во время обучения значительно чаще повторяют вычисления, чем ранние (желтый). Гистограмма посередине показывает распределение в конце обучения. Изображение: Frey et al.

Это согласуется с предыдущими работами: ранние слои трансформеров кодируют локальные синтаксические паттерны, а поздние берутся за сложные семантические и логические операции. Простые вычисления не нуждаются в лишних повторах, зато глубокие — получают от них пользу.

Во время обучения заметен четкий поворотный момент: сначала модели почти не используют циклы, хотя могли бы. Лишь после освоения понимания и предсказания языка они начинают активно повторять вычисления. По словам ученых, этот порог наступает примерно в одной и той же точке для всех конфигураций циклов. Сначала модель должна наработать базовые языковые навыки, чтобы извлекать выгоду из повторного мышления.

Зависимость числа циклов от уровня владения языком на валидации — Модели начинают активно применять циклы только после достижения определенного уровня беглости. Этот порог почти одинаков для всех конфигураций. Цвет обозначает прогресс обучения от темно-синего (начало) к желтому (конец). Изображение: Frey et al.

Больше вычислений требует больше знаний

Исследователи видят в результатах подтверждение фундаментального разделения труда в трансформерах. Полносвязные слои служат памятью для фактических ассоциаций, а слои внимания направляют и обрабатывают информацию. Циклы улучшают маршрутизацию, но не компенсируют нехватку хранилища.

Факт, что слои с частыми циклами чаще берут из памяти, подтверждает эту картину: циклы и память дополняют друг друга. Больше вычислений — больше нужных фактов.

Частота циклов и доступ к памяти по слоям — Слои с большим числом циклов чаще обращаются к локальной памяти (посередине). Доступ к глобальной памяти равномерен по всем слоям (справа). Значения ворот растут во время обучения, локальные с большей вариацией (слева). Изображение: Frey et al.

Авторы отмечают ограничения: эксперименты прошли в относительно малом масштабе — около 200 миллионов параметров и 14 миллиардов токенов обучения. Останется ли эффект для моделей с несколькими миллиардами параметров, уже имеющих солидную встроенную емкость, — вопрос открытый.

Новая архитектура Transformer сочетает размышления и память

Циклы улучшают математику, память восполняет пробелы в знаниях

Ранние слои экономят, поздние работают интенсивнее

Больше вычислений требует больше знаний

Горячее

Возможности OpenCode + Ollama + Qwen3-Coder локально

Краткий курс по ComfyUI для новичков

Amazon раздаёт Kiro Pro+ стартапам, чтобы раскачать ИИ для кодинга

5 открытых ИИ-моделей для редактирования изображений

Генератор видео ChatUp AI без цензуры: ключевые возможности

Сейчас в тренде