Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

Прорыв в обучении с подкреплением через BroRL

BroRL — новый метод в обучении с подкреплением для больших языковых моделей, который преодолевает плато производительности за счет увеличения количества rollout на промпт до сотен. В отличие от предыдущих подходов вроде ProRL, он обеспечивает стабильное улучшение, повышая эффективность вычислений и токенов. Результаты показывают рекорды на бенчмарках Math, Code и Reasoning Gym для моделей 1.5B.

24 ноября 2025 г.
6 мин
3

Как BroRL помогает непрерывному обучению

Большинство подходов к масштабированию в обучении с подкреплением сосредотачиваются на увеличении количества шагов. Это часто приводит к нестабильному сигналу обучения, из-за которого модель с трудом выходит за рамки своих текущих знаний. То, что кажется пределами RL, на деле часто ограничивается стратегией исследования.

BroRL меняет этот подход, делая акцент на масштабировании rollout для исследования на каждом шаге обновления. Цель — перейти от небольших улучшений к стабилизации всего процесса RL, чтобы обучение продолжалось там, где раньше оно замирало.

Масштабирование шагов (как в ProRL)Масштабирование rollout (как в BroRL)
Увеличивает количество шагов обучения (более 3000)Увеличивает количество rollout на промпт (N=512)
Достигает плато производительности; отдача снижаетсяПреодолевает плато; устойчивое, непрерывное улучшение
Сигнал обучения может быть нестабильным и шумнымСтабильные обновления высокого качества благодаря полному исследованию
Становится неэффективным на точке насыщенияБолее эффективно с точки зрения вычислений и

Как масштабирование rollout стабилизирует неустойчивость RL

Как описано в BroRL: Scaling Reinforcement Learning via Broadened Exploration, теоретический анализ (раздел 2) показывает, что процесс обновления в RL определяется двумя противодействующими силами: выборками rollout и неисследованным пространством.

Представьте себе поиск вершины в огромной туманной местности. Пути, по которым вы идете (выборки rollout), дают надежную положительную обратную связь, помогая подняться выше. Но бесконечное число непройденных путей (неисследованное пространство) создает неопределенность и шум. Этот шум похож на гравитацию, которая тянет вниз. Если отправить всего несколько разведчиков (N=16 в ProRL), их отчеты шумные, и эта тянущая сила может остановить подъем, оставив на плато.

Решение BroRL простое, но мощное: отправить целую армию разведчиков (N=512). Картируя большую часть местности, шум от неисследованного тумана усредняется и слабеет. Сигнал "вверх" от успешных путей становится доминирующим.

В формальном анализе это означает, что чистое изменение производительности модели становится положительным (<img decoding="async" src="data:image/svg+xml,%3Csvg%20xmlns=%22http://www.w3.org/2000/svg%22%20viewBox=%220%200%20210%20140%22%3E%3C/svg%3E" alt="\Delta Q_{pos} \ge 0">), когда N велико. Такой стабильный сигнал высокого качества позволяет модели преодолеть плато.

Преодоление плато производительности в RL

Исследователи применили подход BroRL к сильной модели ProRLv2, которая уже достигла плато после 3000 шагов обучения. Результаты оказались убедительными.

На рисунке 1 ясно видно: продолжение по рецепту ProRL (синяя линия) приводит к стагнации и даже ухудшению, в то время как BroRL (оранжевая линия) оживляет модель, обеспечивая устойчивое и непрерывное улучшение производительности, которое пробивает предыдущий потолок.

График улучшения баллов по математике со временем, показывающий две линии: ProRL и BroRL, по оси времени в часах
Рисунок 1. BroRL (N=512) показывает непрерывное улучшение производительности на бенчмарке Math, в то время как ProRL (N=16) достигает плато и ухудшается при длительном обучении

Полные результаты BroRL

Обучение продолжили с чекпоинта ProRLv2 после 3000 шагов, используя исходный метод (N=16) и новый BroRL (N=512) на 64 NVIDIA H100 GPU. Разница проявилась сразу: ProRL застопорился, а BroRL принес стабильные значительные приросты за меньшее время.

МетодNШаги RLОбщее время (ч)Балл по MathБалл по CodeБалл по Reasoning Gym
Базовый16200060.1451.4359.06
Базовый16300061.6952.0061.29
ProRL163000+225+56.362.0852.2662.10
ProRL163000+535+133.862.02 (застопорилось)52.7461.45 (ухудшилось)
BroRL5123000+107+98.162.6253.3162.71
BroRL5123000+134+122.862.8553.4862.82
BroRL5123000+419+393.963.6656.6463.40

Спустя всего 98.1 часа BroRL уже обошел финальную производительность ProRL по всем метрикам, потратив примерно на 35 часов меньше. Это подтверждает, что увеличение размера rollout — более эффективная и вычислительно экономичная стратегия для продвижения границ насыщенной модели.

BroRL устанавливает новый рекорд для моделей рассуждений объемом 1.5B, достигая наивысших баллов в бенчмарках Math (63.66), Code (56.64) и Reasoning Gym (63.40).

Превосходная эффективность вычислений

BroRL не только лучше, но и быстрее, а также умнее использует ресурсы.

  • Алгоритмическая эффективность: Большие наборы rollout (N=512) дают разнообразные кандидаты. Процент прохождения динамического семплинга, который отсеивает бесполезные траектории, вырос с 41% до 62%, так что меньше вычислений тратится впустую.
  • Эффективность оборудования: BroRL переводит генерацию из памяти-зависимой в вычисления-зависимую и повышает процент попаданий в кэш префиксов. В результате GPU лучше использует параллелизм, почти удваивая пропускную способность с 36.5 до 72.4 образцов/с на нашей конфигурации оборудования.
Метод (N)Процент прохождения динамического семплингаПропускная способность генерации (образцов/с)
ProRL (16)41%36.5
BroRL (512)62%72.4

Большая эффективность токенов

BroRL достигает более высокой точности с меньшим количеством выходных токенов на бенчмарках Math и Code, что указывает на лучшую эффективность баллов на токен и более компактные, менее избыточные рассуждения.

Исследование с большим N (512) выявляет множество кратких высокодоходных траекторий на промпт, повышая шансы на выбор правильных цепочек и снижая зависимость от многословных рассуждений с низким сигналом. Это отделяет качество от длины ответа, в отличие от масштабирования шагов, которое обычно раздувает токены.

ЗадачаБалл ProRLБалл BroRLРазница балловТокены ProRLТокены BroRLРазница токенов
Math62.0263.66+1.641650615760-745
Code52.7456.64+3.902680826090-717

Начало работы с BroRL

Результаты показывают, что размер rollout — не просто гиперпараметр, а ключевой эффективный способ масштабирования в обучении с подкреплением. Плато, на которые натыкаются методы масштабирования шагов, — не фундаментальные пределы RL, а следствие недостаточного исследования. Основные выводы:

  • Масштабирование rollout — новый важный аспект для RL. Оно дает стабильный сигнал обучения там, где масштабирование глубины терпит неудачу.
  • Плато производительности — не тупик. Их можно преодолеть, увеличивая rollout для генерации обновлений политики высокого качества.
  • BroRL вычислительно эффективнее, удваивая пропускную способность оборудования и улучшая алгоритмическую эффективность семплов.
  • BroRL эффективнее по токенам, достигая большего с меньшим.
  • Новый чекпоинт, обученный с BroRL, устанавливает рекорд для моделей рассуждений 1.5B.

Для тех, кто хочет раскрыть потенциал моделей с помощью RL, BroRL предлагает обоснованный путь: когда упираетесь в стену, не просто давите вперед — расширяйтесь вширь.