Крупные модели с функцией рассуждений часто приходят к нелогичным выводам: они тратят больше времени на лёгкие задания, чем на тяжёлые, и показывают худшие результаты. Учёные предложили теоретические законы, описывающие, как моделям ИИ следовало бы идеально рассуждать.
Модели рассуждений, такие как o1 от OpenAI или Deepseek-R1, отличаются от обычных языковых моделей тем, что проходят внутренний процесс мышления перед ответом. Они создают цепочку промежуточных шагов — так называемый trace рассуждений, — прежде чем выдать финальный ответ. Для вопроса «Сколько будет 17 × 24?» такой trace может выглядеть так:
I break the task down into smaller steps. 17 × 24 = 17 × (20 + 4) = 17 × 20 + 17 × 4. 17 × 20 = 340. 17 × 4 = 68. 340 + 68 = 408. The answer is 408.
Этот подход повышает эффективность на сложных заданиях, таких как математические доказательства или задачи с несколькими шагами логики. Однако свежие исследования демонстрируют, что он не всегда работает оптимально.
Простые задания провоцируют больше размышлений, чем сложные
Когда Deepseek-R1 просят возвести число в квадрат, модель генерирует примерно на 300 токенов рассуждений больше, чем для составной операции, где нужно сначала сложить, а потом возвести в квадрат. При этом точность на более сложной задаче падает на 12,5 процента. Команда учёных из нескольких университетов США зафиксировала такое поведение в недавнем исследовании.
Этот случай подчёркивает ключевую проблему современных крупных моделей рассуждений: их манера думать часто не подчиняется никакой понятной логике. Люди обычно подстраивают усилия мышления под сложность задачи. Модели ИИ этого не делают надёжно — иногда переусердствуют, иногда недорабатывают. Учёные связывают проблему с данными для обучения, поскольку примеры цепочек мыслей обычно собирают без чётких правил по времени размышлений.
Новый фреймворк предлагает законы для идеального мышления ИИ
Предложенный фреймворк «Законы рассуждений» (LoRe) формулирует две основные гипотезы. Первый закон гласит, что объём мышления должен расти пропорционально сложности задачи; задания вдвое сложнее требуют вдвое больше вычислительного времени. Второй закон утверждает, что точность должна падать экспоненциально с ростом сложности.
Поскольку прямой замер сложности задачи невозможен, учёные опираются на две проверяемые свойства. Первое просто: тяжёлые задачи требуют больше времени на мышление, чем лёгкие. Второе касается составных задач: если на задачу A уходит одна минута, а на B — две, то на комбинацию должно уходить около трёх минут. Общий объём усилий равен сумме отдельных.
Все протестированные модели ошибаются на составных задачах
Учёные создали бенчмарк из двух частей для оценки. Первая включает 40 задач по математике, науке, языку и коду, каждая с 30 вариантами разной сложности. Вторая объединяет 250 пар задач из датасета MATH500 в составные вопросы.
Тесты на десяти крупных моделях рассуждений дали неоднозначную картину. Большинство справляются с первым свойством, тратя больше времени на тяжёлые задачи. Исключение — самая маленькая модель Deepseek-R1-Distill-Qwen-1.5B, которая на языковых задачах показывает отрицательную корреляцию: дольше думает над простыми.
Но все модели проваливаются на составных задачах. Разрывы между ожидаемым и реальным объёмом мышления оказались значительными. Даже модели с механизмами контроля длины рассуждений, вроде Thinkless-1.5B или AdaptThink-7B, не показали лучших результатов.
Целевое обучение устраняет неэффективное мышление
Учёные разработали метод тонкой настройки, чтобы добиться аддитивного поведения на составных задачах. Подход работает с группами по три примера: две подзадачи и их комбинация. Из нескольких вариантов решений выбирают тот, где усилия на общую задачу ближе всего к сумме усилий на отдельные.
На модели 1.5B отклонение в усилиях на рассуждения сократилось на 40,5 процента. Навыки мышления улучшились на всех шести бенчмарках. Модель 8B в среднем набрала 5 процентных пунктов точности.
Неожиданно: обучение на аддитивных временах мышления также повысило качества, не затронутые напрямую. Учёные признают ограничения: бенчмарк охватывает только 40 исходных задач, а проприетарные модели не тестировали из-за расходов. Код и бенчмарки открыты для всех.
Индустрия усиливает фокус на рассуждениях, несмотря на сомнения в пределах
В 2025 году модели рассуждений стали ключевым трендом среди LLM: от Deepseek R1 с высокой эффективностью при меньших ресурсах обучения до гибридных, как Claude Sonnet 3.7, где пользователи задают бюджеты на мышление.
При этом исследования продолжают показывать: рассуждения улучшают результаты, но не равны человеческому мышлению. Модели, скорее всего, просто быстрее находят готовые решения в своих знаниях. Они вероятно, не способны придумывать принципиально новые идеи, как люди. Бенчмарки по науке от OpenAI и других подтверждают: модели отлично справляются с известными вопросами-ответами, но буксуют на сложных исследованиях с необходимостью инноваций.
Тем не менее индустрия ИИ делает ставку на то, что модели рассуждений улучшатся за счёт огромного роста вычислений. OpenAI, к примеру, для o3 выделила вдесятеро больше ресурсов на рассуждения, чем для предшественника o1 — всего через четыре месяца после релиза.