BroRL: прорыв в RL для языковых моделей

Как BroRL помогает непрерывному обучению

Большинство подходов к масштабированию в обучении с подкреплением сосредотачиваются на увеличении количества шагов. Это часто приводит к нестабильному сигналу обучения, из-за которого модель с трудом выходит за рамки своих текущих знаний. То, что кажется пределами RL, на деле часто ограничивается стратегией исследования.

BroRL меняет этот подход, делая акцент на масштабировании rollout для исследования на каждом шаге обновления. Цель — перейти от небольших улучшений к стабилизации всего процесса RL, чтобы обучение продолжалось там, где раньше оно замирало.

Масштабирование шагов (как в ProRL)	Масштабирование rollout (как в BroRL)
Увеличивает количество шагов обучения (более 3000)	Увеличивает количество rollout на промпт (N=512)
Достигает плато производительности; отдача снижается	Преодолевает плато; устойчивое, непрерывное улучшение
Сигнал обучения может быть нестабильным и шумным	Стабильные обновления высокого качества благодаря полному исследованию
Становится неэффективным на точке насыщения	Более эффективно с точки зрения вычислений и

Как масштабирование rollout стабилизирует неустойчивость RL

Как описано в BroRL: Scaling Reinforcement Learning via Broadened Exploration, теоретический анализ (раздел 2) показывает, что процесс обновления в RL определяется двумя противодействующими силами: выборками rollout и неисследованным пространством.

Представьте себе поиск вершины в огромной туманной местности. Пути, по которым вы идете (выборки rollout), дают надежную положительную обратную связь, помогая подняться выше. Но бесконечное число непройденных путей (неисследованное пространство) создает неопределенность и шум. Этот шум похож на гравитацию, которая тянет вниз. Если отправить всего несколько разведчиков (N=16 в ProRL), их отчеты шумные, и эта тянущая сила может остановить подъем, оставив на плато.

Решение BroRL простое, но мощное: отправить целую армию разведчиков (N=512). Картируя большую часть местности, шум от неисследованного тумана усредняется и слабеет. Сигнал "вверх" от успешных путей становится доминирующим.

В формальном анализе это означает, что чистое изменение производительности модели становится положительным (<img decoding="async" src="data:image/svg+xml,%3Csvg%20xmlns=%22http://www.w3.org/2000/svg%22%20viewBox=%220%200%20210%20140%22%3E%3C/svg%3E" alt="\Delta Q_{pos} \ge 0">), когда N велико. Такой стабильный сигнал высокого качества позволяет модели преодолеть плато.

Преодоление плато производительности в RL

Исследователи применили подход BroRL к сильной модели ProRLv2, которая уже достигла плато после 3000 шагов обучения. Результаты оказались убедительными.

На рисунке 1 ясно видно: продолжение по рецепту ProRL (синяя линия) приводит к стагнации и даже ухудшению, в то время как BroRL (оранжевая линия) оживляет модель, обеспечивая устойчивое и непрерывное улучшение производительности, которое пробивает предыдущий потолок.

График улучшения баллов по математике со временем, показывающий две линии: ProRL и BroRL, по оси времени в часах — Рисунок 1. BroRL (N=512) показывает непрерывное улучшение производительности на бенчмарке Math, в то время как ProRL (N=16) достигает плато и ухудшается при длительном обучении

Полные результаты BroRL

Обучение продолжили с чекпоинта ProRLv2 после 3000 шагов, используя исходный метод (N=16) и новый BroRL (N=512) на 64 NVIDIA H100 GPU. Разница проявилась сразу: ProRL застопорился, а BroRL принес стабильные значительные приросты за меньшее время.

Метод	N	Шаги RL	Общее время (ч)	Балл по Math	Балл по Code	Балл по Reasoning Gym
Базовый	16	2000	–	60.14	51.43	59.06
Базовый	16	3000	–	61.69	52.00	61.29
ProRL	16	3000+225	+56.3	62.08	52.26	62.10
ProRL	16	3000+535	+133.8	62.02 (застопорилось)	52.74	61.45 (ухудшилось)
BroRL	512	3000+107	+98.1	62.62	53.31	62.71
BroRL	512	3000+134	+122.8	62.85	53.48	62.82
BroRL	512	3000+419	+393.9	63.66	56.64	63.40

Спустя всего 98.1 часа BroRL уже обошел финальную производительность ProRL по всем метрикам, потратив примерно на 35 часов меньше. Это подтверждает, что увеличение размера rollout — более эффективная и вычислительно экономичная стратегия для продвижения границ насыщенной модели.

BroRL устанавливает новый рекорд для моделей рассуждений объемом 1.5B, достигая наивысших баллов в бенчмарках Math (63.66), Code (56.64) и Reasoning Gym (63.40).

Превосходная эффективность вычислений

BroRL не только лучше, но и быстрее, а также умнее использует ресурсы.

Алгоритмическая эффективность: Большие наборы rollout (N=512) дают разнообразные кандидаты. Процент прохождения динамического семплинга, который отсеивает бесполезные траектории, вырос с 41% до 62%, так что меньше вычислений тратится впустую.
Эффективность оборудования: BroRL переводит генерацию из памяти-зависимой в вычисления-зависимую и повышает процент попаданий в кэш префиксов. В результате GPU лучше использует параллелизм, почти удваивая пропускную способность с 36.5 до 72.4 образцов/с на нашей конфигурации оборудования.

Метод (N)	Процент прохождения динамического семплинга	Пропускная способность генерации (образцов/с)
ProRL (16)	41%	36.5
BroRL (512)	62%	72.4

Большая эффективность токенов

BroRL достигает более высокой точности с меньшим количеством выходных токенов на бенчмарках Math и Code, что указывает на лучшую эффективность баллов на токен и более компактные, менее избыточные рассуждения.

Исследование с большим N (512) выявляет множество кратких высокодоходных траекторий на промпт, повышая шансы на выбор правильных цепочек и снижая зависимость от многословных рассуждений с низким сигналом. Это отделяет качество от длины ответа, в отличие от масштабирования шагов, которое обычно раздувает токены.

Задача	Балл ProRL	Балл BroRL	Разница баллов	Токены ProRL	Токены BroRL	Разница токенов
Math	62.02	63.66	+1.64	16506	15760	-745
Code	52.74	56.64	+3.90	26808	26090	-717

Начало работы с BroRL

Результаты показывают, что размер rollout — не просто гиперпараметр, а ключевой эффективный способ масштабирования в обучении с подкреплением. Плато, на которые натыкаются методы масштабирования шагов, — не фундаментальные пределы RL, а следствие недостаточного исследования. Основные выводы:

Масштабирование rollout — новый важный аспект для RL. Оно дает стабильный сигнал обучения там, где масштабирование глубины терпит неудачу.
Плато производительности — не тупик. Их можно преодолеть, увеличивая rollout для генерации обновлений политики высокого качества.
BroRL вычислительно эффективнее, удваивая пропускную способность оборудования и улучшая алгоритмическую эффективность семплов.
BroRL эффективнее по токенам, достигая большего с меньшим.
Новый чекпоинт, обученный с BroRL, устанавливает рекорд для моделей рассуждений 1.5B.

Для тех, кто хочет раскрыть потенциал моделей с помощью RL, BroRL предлагает обоснованный путь: когда упираетесь в стену, не просто давите вперед — расширяйтесь вширь.

Прорыв в обучении с подкреплением через BroRL

Как BroRL помогает непрерывному обучению

Как масштабирование rollout стабилизирует неустойчивость RL

Преодоление плато производительности в RL

Полные результаты BroRL

Превосходная эффективность вычислений

Большая эффективность токенов

Начало работы с BroRL

Горячее

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Claude Cowork уязвим к краже файлов

Знакомство со Stickerbox: ИИ для детских стикеров

Топ-7 планов для вайб-кодинга

Топ-5 API-провайдеров открытых ИИ-моделей

Сейчас в тренде