Компактные модели ИИ: будущее без гигантов

С самого начала развития ИИ ученые верили в силу масштаба: они считали, что общий интеллект возникает сам собой при увеличении размеров. Достаточно добавлять параметры и обучать их на огромных объемах данных, и модели начнут рассуждать как люди.

Однако практика показала, что даже такой прямолинейный метод имеет серьезные ограничения. Данные указывают, что многие передовые модели недостаточно обучены и имеют завышенное количество параметров (2022)³, что говорит о неэффективном использовании вычислительных ресурсов.

Скрытые проблемы гигантских моделей ИИ

Мы заставляем самые мощные созданные ИИ модели мыслить медленно и неуклюже на чужом языке: английском. Чтобы решать задачи, им приходится проговаривать каждый шаг словами, генерируя множество бесполезных и плохо организованных токенов.

В отрасли давно сложилась тенденция к максимальному размеру. Это привело к созданию моделей с миллиардами параметров и наборов данных с триллионами токенов. Такой подход подразумевает, что модели не рассуждают по-настоящему, а просто имитируют лучше всех возможных вариантов. Вместо поиска оригинального решения они опираются на похожие примеры из обучающих данных.

Наконец, и это самое важное, такие модели используют универсальный подход к мышлению. Например, при сложной задаче они не могут выделить дополнительное время на трудные части. Конечно, на более сложных задачах модель генерирует больше токенов цепочки мыслей (2022)⁴. Но это не отражает человеческое мышление, где глубокие размышления происходят без словесного выражения.

Модели иерархического рассуждения

Знакомьтесь с моделями иерархического рассуждения (HRM) (2025b)¹: вместо громоздкого проговаривания мыслей они рассуждают молча и плавно в своем родном латентном пространстве — многомерном мире чисел. Это гораздо ближе к человеческой интуиции, где глубокие идеи возникают до того, как мы их формулируем словами.

В основе этой архитектуры лежит простая, но гибкая идея: медленный модуль H определяет общую стратегию, а быстрый модуль L на низком уровне реализует ее до конца. Оба модуля построены как стандартные блоки трансформера (2017)², наложенные друг на друга.

Как работает мышление в HRM: взгляд изнутри

Модель разбивает процесс мышления на динамичную двухскоростную систему. Чтобы понять, как она решает сложную задачу, такую как лабиринт 30×30, разберем весь путь от входных данных до ответа.

Общая архитектура модели HRM — Общая архитектура HRM
(Примечание: Все модули H и L используют общие веса для всех экземпляров и обрабатывают информацию рекуррентно)

1. Подготовка: Встраивание и инициализация

Развертка и встраивание: Входные данные (например, сетка судоку или лабиринт) преобразуются в одномерный поток патчей или токенов, а затем подаются в модель встраивания, которая переводит понятный человеку лабиринт в векторы, доступные для машины.
Инициализация памяти: Создаются два модуля: высокоуровневое состояние (z_H), которое выступает в роли надзирателя и задает общее направление рассуждений, и низкоуровневое состояние (z_L), отвечающее за выполнение в заданном направлении.

2. Основной механизм: Здесь начинается настоящее рассуждение

В основе HRM лежит вложенный цикл, один проход которого называется сегментом. Каждый сегмент включает несколько циклов модулей H и L.

Шаг A: Формирование плана
Модуль высокого уровня (H) начинает с создания общего плана. Его состояние памяти (z_H) остается постоянным на фиксированное число шагов и инициализируется случайно в первом проходе. В примере с лабиринтом начальный план может быть абстрактным, например: «исследовать пути вниз и вправо».
Шаг B: Реализация плана
С фиксированным планом от модуля H низкоуровневый модуль (L) запускает серию рекуррентных вычислений. На фиксированное число временных шагов (T) он обновляет свое скрытое состояние (z_L), используя три входа:
- Свое состояние с предыдущего шага (z_{L_previous}).
- Фиксированный план от модуля H (z_H).
- Исходную задачу (встроенный лабиринт).
Модуль L, учитывая общую стратегию, исследует пути, натыкается на тупики, возвращается назад и повторяет, пока не придет к выводу, который передаст модулю H.
Шаг C: Корректировка плана
После завершения циклов модуль L передает свое финальное состояние памяти (z_{L_final}), отражающее результат, модулю H для доработки. Модуль H корректирует план и создает новую стратегию для следующей итерации. Например: «Путь вниз ведет в тупик. Новый план — исследовать пути вправо».
Шаг D: Сброс и повтор
Модуль L получает обновленный план от «надзирателя» для следующего цикла интенсивной работы. Это продолжается N циклов для модуля H, каждый из которых включает T подциклов модуля L.

3. Кнопка 'Выход': Решение о остановке

Один проход через механизм (сегмент) может не хватить для сложной задачи. Здесь проявляется ключевая особенность HRM: адаптивное время вычислений (ACT) (2016)⁶.

После каждого полного сегмента мышления (N×T циклов) модель генерирует пробный ответ. Затем он подается в простую линейную сеть, которая решает: «Достаточно ли уверенности, чтобы остановиться, или нужно подумать еще?»

Если модель уверена в ответе, она останавливается и выдает его как финальный.
Если нет, она «размышляет» дальше. Финальные состояния модулей L и H используются для инициализации нового сегмента, продолжающего процесс.

Реализация ACT:

Модель учится решать, когда остановиться, через парадигму Q-обучения.

Q-голова: Это простая линейная прослойка (Q-голова), которая принимает решение о продолжении или остановке. Она берет финальное состояние памяти модуля H в конце сегмента и выдает два значения: Q_halt и Q_continue.
Значение 'Остановка' (Q_halt): Это показатель уверенности в необходимости остановки. Во время обучения модель учится предсказывать этим значением немедленную финальную награду. Целевое значение просто: 1, если предсказанный ответ верен, и 0, если неверен.

Формула награды за остановку в ACT — G_halt: Награда за остановку процесса рассуждений
ŷ^m: Предсказанный ответ модели для задачи (например, решение лабиринта)
y: Истинное значение по сравнению с предсказанием модели (например, реальное решение лабиринта)
m: Номер текущей итерации сегмента

Значение 'Продолжение' (Q_continue): Это оценка награды, если модель продолжит мышление на еще один сегмент вместо остановки. Целевое значение — максимум из двух Q-оценок следующего сегмента, и оно определяется как:

Формула награды за продолжение в ACT — G_continue: Награда за продолжение рассуждений
m: Номер текущей итерации сегмента
Q_{continue/halt}: Предсказанный вывод Q-головы

Двойная система потерь: После каждого сегмента общая потеря модели состоит из двух целей:
- Потеря задачи: Стандартная потеря за неверный ответ (кросс-энтропия последовательность-в-последовательность).
- Потеря Q-обучения: Потеря ACT за плохое решение об остановке (бинарная кросс-энтропия).

Формула общей потери модели в HRM — L^m_total: Общая потеря для всей модели
ŷ^m: Предсказанный ответ модели для задачи (например, решение лабиринта)
y: Истинное значение по сравнению с предсказанием модели (например, реальное решение лабиринта)
Q^m: Предсказание Q-головы о остановке или продолжении
G^m: Целевое значение для Q-головы

Это позволяет модели одновременно учиться решать задачу и распознавать момент ее решения.

Тестирование на практике: Результаты

Бенчмарки судоку и лабиринтов

При сравнении с передовыми моделями рассуждений HRM показывает заметно лучшие результаты на сложных задачах, таких как головоломки судоку и лабиринты 30×30. Эти задачи требуют глубокого логического вывода, возврата назад и планирования в пространстве. Как видно ниже, другие модели с промптингом цепочки мыслей не смогли дать ни одного верного решения. Это подтверждает, что рассуждения в латентном пространстве эффективнее, чем самобеседы через CoT.

Сравнение точности моделей на бенчмарках судоку и лабиринтов — (Адаптировано из 2025¹, Рисунок 1)
X-ось: Точность моделей на соответствующих бенчмарках

Архитектура вместо масштаба: Парадигма эффективности

Модель достигает таких результатов с высокой эффективностью по параметрам и данным. Она показывает отличные показатели с 27 миллионами параметров, обученных с нуля на примерно 1000 примерах на задачу. Не требуется дорогое предобучение на огромных веб-данных или хрупкие методы промптинга. Это укрепляет идею, что модель может усваивать общие паттерны и рассуждать эффективнее стандартного подхода на основе CoT.

Абстрактные рассуждения и текучий интеллект: Вызов ARC-AGI

Корпус абстракции и рассуждений (ARC) (2019)⁵ — признанный тест на текучий интеллект, где модели должны выводить неявные абстрактные правила по нескольким визуальным примерам. HRM с 27 миллионами параметров превосходит большинство主流 моделей рассуждений. Несмотря на скромный размер, она набрала 40,3% на ARC-AGI-1, в то время как крупные модели вроде o3-mini и Claude 3.7 с огромными вычислениями достигли лишь 34,5% и 21,2% соответственно.

Сравнение точности моделей на бенчмарке ARC-AGI — (Адаптировано из 2025¹, Рисунок 1)
X-ось: Точность моделей на соответствующих бенчмарках

Открытие настоящей вычислительной глубины

Производительность обычных трансформеров быстро достигает плато при добавлении вычислений, то есть дополнительные слои дают все меньше отдачи на сложных задачах рассуждений. В отличие от них точность HRM растет почти линейно с увеличением шагов. Это прямое доказательство из исследования: архитектура модели не имеет фиксированной глубины. Она умеет использовать дополнительные вычисления для сложных задач, чего не позволяет структура стандартного трансформера.

Масштабирование точности HRM по сравнению с трансформерами на судоку — (Адаптировано из 2025¹, Рисунок 2)
X-ось: Точность моделей на датасете Sudoku-Extreme Full

Умная эффективность: Решение задач с меньшими усилиями

Механизм адаптивного времени вычислений (ACT) позволяет модели динамически распределять ресурсы в зависимости от сложности задачи. HRM с ACT достигает той же высокой точности, что и модель с жестко заданным большим числом шагов, но тратит в среднем гораздо меньше ресурсов. Она учится экономить вычисления, быстро решая простые задачи и тратя больше времени на размышления только при необходимости, что выходит за рамки грубой силы.

Эффективность ACT в HRM по шагам и точности — (Адаптировано из 2025¹, Рисунок 5)

Эти два графика нужно рассматривать вместе, чтобы понять эффективность механизма ACT. X-ось на обоих — вычислительный бюджет: для модели «Fixed M» это точное число шагов, которое она выполняет, а для модели «ACT» — максимальное разрешенное число шагов (M_max). Y-ось на рисунке (a) показывает среднее число фактически использованных шагов, а на (b) — финальную точность.

Точность модели «Fixed M» (черная линия, рис. b) достигает пика при бюджете 8, но это требует ровно 8 шагов на каждую задачу (черная линия, рис. a). Модель «ACT» (синяя линия, рис. b) дает почти такую же пиковую точность при максимальном бюджете 8. Однако рисунок (a) показывает, что для этого она использует в среднем около 1,5 шага. Вывод ясен: модель ACT достигает той же высокой производительности, тратя менее четверти ресурсов, и умно останавливается раньше на уже решенных задачах.

Следующая большая модель ИИ может быть компактной

Скрытые проблемы гигантских моделей ИИ

Модели иерархического рассуждения

Как работает мышление в HRM: взгляд изнутри

1. Подготовка: Встраивание и инициализация

2. Основной механизм: Здесь начинается настоящее рассуждение

3. Кнопка 'Выход': Решение о остановке

Тестирование на практике: Результаты

Бенчмарки судоку и лабиринтов

Архитектура вместо масштаба: Парадигма эффективности

Абстрактные рассуждения и текучий интеллект: Вызов ARC-AGI

Открытие настоящей вычислительной глубины

Умная эффективность: Решение задач с меньшими усилиями

Горячее

Как ИИ модели думают: новое исследование

Самые актуальные AI-носители и гаджеты для покупки

Nano Banana Pro от Google меняет ИИ-арт

Обзор Abacus AI: ChatLLM и DeepAgent

White-Box-Coder: ИИ с самопроверкой кода

Сейчас в тренде