Как BroRL помогает непрерывному обучению
Большинство подходов к масштабированию в обучении с подкреплением сосредотачиваются на увеличении количества шагов. Это часто приводит к нестабильному сигналу обучения, из-за которого модель с трудом выходит за рамки своих текущих знаний. То, что кажется пределами RL, на деле часто ограничивается стратегией исследования.
BroRL меняет этот подход, делая акцент на масштабировании rollout для исследования на каждом шаге обновления. Цель — перейти от небольших улучшений к стабилизации всего процесса RL, чтобы обучение продолжалось там, где раньше оно замирало.
| Масштабирование шагов (как в ProRL) | Масштабирование rollout (как в BroRL) |
|---|---|
| Увеличивает количество шагов обучения (более 3000) | Увеличивает количество rollout на промпт (N=512) |
| Достигает плато производительности; отдача снижается | Преодолевает плато; устойчивое, непрерывное улучшение |
| Сигнал обучения может быть нестабильным и шумным | Стабильные обновления высокого качества благодаря полному исследованию |
| Становится неэффективным на точке насыщения | Более эффективно с точки зрения вычислений и |
Как масштабирование rollout стабилизирует неустойчивость RL
Как описано в BroRL: Scaling Reinforcement Learning via Broadened Exploration, теоретический анализ (раздел 2) показывает, что процесс обновления в RL определяется двумя противодействующими силами: выборками rollout и неисследованным пространством.
Представьте себе поиск вершины в огромной туманной местности. Пути, по которым вы идете (выборки rollout), дают надежную положительную обратную связь, помогая подняться выше. Но бесконечное число непройденных путей (неисследованное пространство) создает неопределенность и шум. Этот шум похож на гравитацию, которая тянет вниз. Если отправить всего несколько разведчиков (N=16 в ProRL), их отчеты шумные, и эта тянущая сила может остановить подъем, оставив на плато.
Решение BroRL простое, но мощное: отправить целую армию разведчиков (N=512). Картируя большую часть местности, шум от неисследованного тумана усредняется и слабеет. Сигнал "вверх" от успешных путей становится доминирующим.
В формальном анализе это означает, что чистое изменение производительности модели становится положительным (<img decoding="async" src="data:image/svg+xml,%3Csvg%20xmlns=%22http://www.w3.org/2000/svg%22%20viewBox=%220%200%20210%20140%22%3E%3C/svg%3E" alt="\Delta Q_{pos} \ge 0">), когда N велико. Такой стабильный сигнал высокого качества позволяет модели преодолеть плато.
Преодоление плато производительности в RL
Исследователи применили подход BroRL к сильной модели ProRLv2, которая уже достигла плато после 3000 шагов обучения. Результаты оказались убедительными.
На рисунке 1 ясно видно: продолжение по рецепту ProRL (синяя линия) приводит к стагнации и даже ухудшению, в то время как BroRL (оранжевая линия) оживляет модель, обеспечивая устойчивое и непрерывное улучшение производительности, которое пробивает предыдущий потолок.

Полные результаты BroRL
Обучение продолжили с чекпоинта ProRLv2 после 3000 шагов, используя исходный метод (N=16) и новый BroRL (N=512) на 64 NVIDIA H100 GPU. Разница проявилась сразу: ProRL застопорился, а BroRL принес стабильные значительные приросты за меньшее время.
| Метод | N | Шаги RL | Общее время (ч) | Балл по Math | Балл по Code | Балл по Reasoning Gym |
|---|---|---|---|---|---|---|
| Базовый | 16 | 2000 | – | 60.14 | 51.43 | 59.06 |
| Базовый | 16 | 3000 | – | 61.69 | 52.00 | 61.29 |
| ProRL | 16 | 3000+225 | +56.3 | 62.08 | 52.26 | 62.10 |
| ProRL | 16 | 3000+535 | +133.8 | 62.02 (застопорилось) | 52.74 | 61.45 (ухудшилось) |
| BroRL | 512 | 3000+107 | +98.1 | 62.62 | 53.31 | 62.71 |
| BroRL | 512 | 3000+134 | +122.8 | 62.85 | 53.48 | 62.82 |
| BroRL | 512 | 3000+419 | +393.9 | 63.66 | 56.64 | 63.40 |
Спустя всего 98.1 часа BroRL уже обошел финальную производительность ProRL по всем метрикам, потратив примерно на 35 часов меньше. Это подтверждает, что увеличение размера rollout — более эффективная и вычислительно экономичная стратегия для продвижения границ насыщенной модели.
BroRL устанавливает новый рекорд для моделей рассуждений объемом 1.5B, достигая наивысших баллов в бенчмарках Math (63.66), Code (56.64) и Reasoning Gym (63.40).
Превосходная эффективность вычислений
BroRL не только лучше, но и быстрее, а также умнее использует ресурсы.
- Алгоритмическая эффективность: Большие наборы rollout (N=512) дают разнообразные кандидаты. Процент прохождения динамического семплинга, который отсеивает бесполезные траектории, вырос с 41% до 62%, так что меньше вычислений тратится впустую.
- Эффективность оборудования: BroRL переводит генерацию из памяти-зависимой в вычисления-зависимую и повышает процент попаданий в кэш префиксов. В результате GPU лучше использует параллелизм, почти удваивая пропускную способность с 36.5 до 72.4 образцов/с на нашей конфигурации оборудования.
| Метод (N) | Процент прохождения динамического семплинга | Пропускная способность генерации (образцов/с) |
|---|---|---|
| ProRL (16) | 41% | 36.5 |
| BroRL (512) | 62% | 72.4 |
Большая эффективность токенов
BroRL достигает более высокой точности с меньшим количеством выходных токенов на бенчмарках Math и Code, что указывает на лучшую эффективность баллов на токен и более компактные, менее избыточные рассуждения.
Исследование с большим N (512) выявляет множество кратких высокодоходных траекторий на промпт, повышая шансы на выбор правильных цепочек и снижая зависимость от многословных рассуждений с низким сигналом. Это отделяет качество от длины ответа, в отличие от масштабирования шагов, которое обычно раздувает токены.
| Задача | Балл ProRL | Балл BroRL | Разница баллов | Токены ProRL | Токены BroRL | Разница токенов |
|---|---|---|---|---|---|---|
| Math | 62.02 | 63.66 | +1.64 | 16506 | 15760 | -745 |
| Code | 52.74 | 56.64 | +3.90 | 26808 | 26090 | -717 |
Начало работы с BroRL
Результаты показывают, что размер rollout — не просто гиперпараметр, а ключевой эффективный способ масштабирования в обучении с подкреплением. Плато, на которые натыкаются методы масштабирования шагов, — не фундаментальные пределы RL, а следствие недостаточного исследования. Основные выводы:
- Масштабирование rollout — новый важный аспект для RL. Оно дает стабильный сигнал обучения там, где масштабирование глубины терпит неудачу.
- Плато производительности — не тупик. Их можно преодолеть, увеличивая rollout для генерации обновлений политики высокого качества.
- BroRL вычислительно эффективнее, удваивая пропускную способность оборудования и улучшая алгоритмическую эффективность семплов.
- BroRL эффективнее по токенам, достигая большего с меньшим.
- Новый чекпоинт, обученный с BroRL, устанавливает рекорд для моделей рассуждений 1.5B.
Для тех, кто хочет раскрыть потенциал моделей с помощью RL, BroRL предлагает обоснованный путь: когда упираетесь в стену, не просто давите вперед — расширяйтесь вширь.