Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

Исследование показало, почему модели ИИ продолжают думать сверх решения

Модели рассуждений ИИ генерируют лишний текст после правильных ответов, хотя сами знают момент остановки — к такому выводу пришло исследование Bytedance. Метод SAGE и дообучение SAGE-RL повышают точность на 2,1% в среднем и сокращают токены на 44,1%. Это даёт прирост скорости инференса свыше 40% на сложных задачах.

25 февраля 2026 г.
5 мин
35

Крупные модели рассуждений нередко продолжают размышлять далеко за пределами правильного ответа: перепроверяют, перефразируют и удостоверяются в уже верном решении. Новое исследование Bytedance подтверждает, что модели сами понимают момент завершения. Стандартные способы генерации просто не дают им прерваться.

Такая особенность известна давно. На бенчмарке AIME 2025 Deepseek-R1 создаёт ответы почти в пять раз длиннее, чем у Claude 3.7 Sonnet, сохраняя похожий уровень точности. QwQ-32B опережает на два процента пункта самыми краткими вариантами, тратя на 31% меньше токенов. При этом в 72% случаев, когда появлялись как верные, так и ошибочные варианты, именно удлинённый ответ оказывался неверным.

Пример аннотированного вывода модели: верный ответ достигнут на 500-м токене, после чего следует 452 дополнительных токена ненужных перепроверок и переформулировок.
Классический случай избыточных размышлений: модель добирается до правильного ответа за 500 токенов, а потом добавляет ещё 452 на повторные проверки и подтверждения. | Изображение: Huang et al.

Ответ уже готов, а модель всё говорит

Для оценки масштаба проблемы авторы ввели показатель RFCS (Ratio of the First Correct Step), который фиксирует положение первого верного шага в цепочке рассуждений относительно полной длины. На датасете MATH-500 правильное решение возникает задолго до финала более чем в половине задач, решённых успешно.

Гистограмма распределения RFCS для трёх моделей рассуждений: более половины верных ответов содержат лишние шаги после первого правильного решения.
Во всех протестированных моделях более половины правильных решений включают ненужные дополнительные шаги после первого верного. Более мощные модели почти не превосходят слабые. | Изображение: Huang et al.

В конкретном случае модель достигла цели за 500 токенов, но потратила следующие 452 на перепроверки, перефразировки и лишние подтверждения верного результата. Подобное поведение проявляется как в компактных вариантах вроде Deepseek-R1-Distill-Qwen-1.5B, так и в масштабных, таких как Qwen3-8B. Даже усиленная доработка после базового обучения не устраняет дефект.

Модели чувствуют завершение; сэмплинг — нет

При параллельном ведении нескольких цепочек рассуждений во время инференса модели стабильно отбирают краткие и точные траектории, которым приписывают высокую уверенность. Об этом свидетельствует TSearch — подход, усредняющий вероятности по всей цепочке вместо отдельных токенов.

Три ключевых вывода: отобранные пути короче и вернее. У их финальных точек сигнал остановки стабильно лидирует среди кандидатов на следующий токен — модель понимает, что выполнена. Увеличение числа параллельных ветвей усиливает эту закономерность. Способность timely завершаться заложена в самих моделях; повседневные методы генерации её игнорируют.

Сравнение двух панелей: ранжирование сигнала остановки в концах цепочек — высокая уверенность при выборе по общей вероятности (верх) против неопределённости без неё (низ).
При отборе цепочек по общей уверенности модели (верхняя панель) завершение происходит с высокой степенью убеждённости. Без такого отбора (нижняя) сигнал остановки остаётся слабым. | Изображение: Huang et al.

SAGE продвигается шагами, а не токенами

Предложенное решение — SAGE (Self-Aware Guided Efficient Reasoning). В отличие от поэлементного роста, SAGE удлиняет цепочки полноценными шагами рассуждений и после каждого сверяет наличие сигнала завершения. При положительном ответе процесс прерывается.

В тестах SAGE адаптировался к условиям: мощные модели на трудных наборах данных повышали верность. Слабые на лёгких существенно укорачивали выводы. По сути, метод устранял переизбыток и раскрывал резерв, где он был.

Для закрепления паттернов введён SAGE-RL — модификация обычного обучения с подкреплением. В каждой группе из восьми сгенерированных ответов два получены SAGE, шесть — стандартным способом. Через механизм преимущества модель осваивает приоритет компактных траекторий.

По шести математическим наборам данных, включая MATH-500, AIME 2024 и 2025, OlympiadBench, результаты схожи: альтернативы вроде LC-R1, ThinkPrune или AdaptThink сберегают токены за счёт снижения качества. SAGE-RL поднимает оба параметра. На Deepseek-R1-Distill-Qwen-7B вариант SAGE-GRPO достиг 93% на MATH-500 против 91,6%, уменьшив объём с 3871 до 2141 токена.

Сравнение двух выводов модели на задаче координатной геометрии: базовая версия тратит 1381 токен против 712 у обученной SAGE-RL при том же верном результате.
Одинаковая задача координатной геометрии в двух решениях: базовая DS-1.5B расходует 1381 токен с повторными проверками. Обученная SAGE-RL достигает цели за 712 токенов. | Изображение: Huang et al.

На AIME 2025 точность DS-1.5B подскочила на 6,2 процентных пункта. Сильная Qwen3-8B сократила ответы вдвое — с 18342 до 9183 токенов, не уступив в качестве. Время обработки сократилось более чем на 40% для большинства комбинаций моделей и тестов.

Наибольший эффект заметен на особо сложных примерах — именно там скрыт основной потенциал оптимизации. Устранение передумывания может обойтись без свежих архитектур или хитрых функций вознаграждения. Достаточно уважать сигналы моделей о готовности.

Избыточные размышления моделей — тема давних исследований. Год назад анализ выявил, что чрезмерное «мышление» в диалоговых режимах существенно бьёт по эффективности. Свежие работы Google раскрыли: цепочки строятся как дебаты между внутренними ролями, что усиливает точность ценой растянутости.