Qwen с FIPO удваивает рассуждения ИИ-моделей

Обучение с подкреплением сталкивается с ограничениями в моделях рассуждений, так как все токены получают равную награду. Алгоритм FIPO от команды Qwen Alibaba устраняет этот недостаток, распределяя награды по шагам в зависимости от их влияния на дальнейший процесс, что позволяет удвоить протяженность цепочек мышления.

При обучении больших языковых моделей рассуждению через механизм с подкреплением обычно выносится простое решение о успехе или неудаче в конце сгенерированного ответа. Эта награда равномерно распределяется по всем токенам последовательности, независимо от того, является ли токен поворотным моментом логики или простой запятой.

Разработчики из Qwen считают, что такая грубая схема распределения наград — главная причина, по которой модели рассуждений достигают предела при использовании популярных методов вроде GRPO (Group Relative Policy Optimization). Цепочки рассуждений вырастают до определенной длины и затем перестают развиваться.

FIPO (Future-KL Influenced Policy Optimization) призван преодолеть этот барьер. Вместо оценки каждого токена по отдельности алгоритм смотрит вперед: как генерация этого токена меняет поведение модели в последующих шагах?

FIPO вычисляет суммарный сдвиг вероятностей по всем токенам, идущим дальше, и использует этот показатель для точного распределения наград. Шаги, запускающие продуктивную цепочку рассуждений, получают больше; те, что уводят в тупик, — меньше.

FIPO на уровне методов PPO без дополнительной модели

Раньше проблему равномерных наград пытались решить с помощью методов на базе PPO, где отдельная модель оценки определяла пользу для каждого токена.

Такая вспомогательная модель обычно требует предварительного обучения на длинных данных цепочек рассуждений, что приводит к утечке внешних знаний. Авторы отмечают: сложно понять, идут ли улучшения от самого алгоритма или от предобученного помощника. FIPO обходитсь без него и показывает сопоставимые результаты.

Линейный график точности на AIME 2024 по шагам обучения. FIPO поднимается до 56–58%, DAPO застревает на 50%. Горизонтальные линии указывают DeepSeek-R1-Zero на 47% и o1-mini на 56%.

FIPO опережает базовый метод, DeepSeek-R1-Zero и o1-mini на бенчмарке AIME-2024 в ходе обучения. Изображение: Qwen Pilot Team

Для стабильности обучения FIPO включает защитные механизмы. Фактор дисконтирования придает больший вес близким токенам, чем дальним, поскольку влияние последних предсказать сложнее.

Алгоритм также отсекает токены с чрезмерным расхождением модели между шагами обучения. Без этого фильтра возникали серьезные нестабильности: процесс сходил с рельсов, а длина ответов резко падала.

Четыре графика демонстрируют нестабильность обучения без защит. Около шага 70 метрики стабильности резко взлетают, средняя длина ответа падает с 1400 до ниже 800 токенов.

Без отсева экстремальных значений обучение FIPO сходит с рельсов около шага 70, длина ответов обваливается. Изображение: Qwen Pilot Team

Длина цепочек рассуждений удваивается, точность растет

Тестирование прошло на Qwen2.5-32B-Base — модели без предварительного опыта с синтетическими длинными данными CoT. Обучение велось исключительно на публичном датасете DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization) — варианте GRPO с открытым кодом, чтобы обеспечить честное сравнение.

Результаты однозначны. Средняя длина цепочки рассуждений у DAPO застревает на 4000 токенах, FIPO выходит за 10 000. На математическом бенчмарке AIME 2024 точность подскакивает с 50% до 56%, с пиком в 58%. Это опережает DeepSeek-R1-Zero-Math-32B (около 47%) и o1-mini от OpenAI (около 56%). На более сложном AIME 2025 показатели поднимаются с 38% до 43%.

Авторы подчеркивают: рост касается не отдельных выбросов, а всего распределения длин ответов — от коротких до длинных. Это указывает на кардинальное изменение подхода модели к задачам.

Шесть графиков длины ответов по шагам обучения. FIPO стабильно выходит за 10 000 токенов по всем метрикам, DAPO тормозит на 4000. Точечный график показывает положенную связь длины и точности.

С FIPO длина ответов растет повсеместно, а не только у выбросов. Длинные ответы тесно коррелируют с ростом точности. Изображение: Qwen Pilot Team

Модель начинает проверять себя сама

В статье описаны четыре фазы эволюции модели во время обучения. Сначала она выдает поверхностные шаблоны планирования — контуры без настоящей математики, завершающиеся галлюцинированным ответом. На второй фазе, где застревают модели на DAPO, идет чистая линейная цепочка рассуждений с остановкой на первом найденном решении.

На третьей фазе модель самостоятельно перепроверяет промежуточные результаты. Достигнув ответа, она переключается на другой метод — скажем, с алгебры на геометрию — для подтверждения. К четвертой фаза модель проводит систематическую многопроходную верификацию: пересчитывает большие квадраты поэтапно и повторно проходит полную дедукцию.

Такое поведение напоминает стратегии масштабирования на этапе вывода в o-серии OpenAI и DeepSeek-R1, но FIPO достигает его чисто через обучение с подкреплением, без синтетических данных CoT.

Пока только начало

FIPO проверили только на математических задачах, на одном датасете и на базовых моделях без предобучения на длинных CoT. Длинные последовательности повышают вычислительные затраты. Команде предстоит много дополнительных тестов.

Остается открытым вопрос, перейдут ли улучшения в другие области вроде кода или символической логики. Есть и разрыв в производительности по сравнению с дистилляцией из более крупных учителей: чистое обучение с подкреплением уступает прямому переносу знаний от сильной модели.

Разработчики обещают открыть код системы обучения со всеми настройками.

Команда Qwen заставляет ИИ-модели мыслить глубже новым алгоритмом

FIPO на уровне методов PPO без дополнительной модели

Длина цепочек рассуждений удваивается, точность растет

Модель начинает проверять себя сама

Пока только начало

Горячее

Anthropic объяснила быстрый расход лимитов Claude Code

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Топ-5 CLI-инструментов для агентного кодирования

Топ-5 API-провайдеров открытых ИИ-моделей

Open Notebook: альтернатива NotebookLM

Сейчас в тренде