Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

Агенты RL переходят от падений к паркуру с глубокими сетями

Ученые из Princeton и Варшавы увеличили глубину RL-сетей до 1024 слоев с помощью CRL, добившись 2–50x роста эффективности и новых действий вроде паркура у гуманоидов. Глубина превосходит ширину, но нужны остаточные связи, нормализация и активация. Метод обходит базовые RL в 8 из 10 задач, код открыт.

15 марта 2026 г.
5 мин
29

Агент ИИ выполняет прыжок в процессе обучения RL-CRL

Большинство алгоритмов подкрепляющего обучения применяют всего 2–5 слоев сети, но исследователи добились 2–50-кратного роста производительности, увеличив глубину до 1024 слоев в самонаправленном агенте, и при этом наблюдают появление совершенно новых действий.

В обработке текста и изображений увеличение масштаба моделей привело к прорывам. А вот в подкрепляющем обучении (RL), где агенты ИИ постигают навыки методом проб и ошибок, похожий эффект до сих пор не удавалось повторить, отмечают ученые из Принстонского университета и Варшавского технологического университета. Обычно в RL-сетях всего 2–5 слоев, в то время как языковые модели вроде Llama 3 используют сотни.

Исследователи доказали: большее число слоев повышает эффективность в 2–50 раз в зависимости от задания. В самых сложных тестах — когда гуманоид должен пробираться по лабиринту, — систему проверили с 1024 слоями. Секрет в алгоритме Contrastive RL (CRL), который заимствует идеи успешного масштабирования языковых моделей для RL.

Сеть с 4 слоями не справляется с лабиринтом.
Сеть с 64 слоями успешно проходит лабиринт.

Контрастное обучение помогает справляться с редкой обратной связью в RL

Главное препятствие для масштабирования RL — агент получает гораздо меньше сигналов, чем языковая модель. В обучении языков каждое слово дает подсказку. Агент RL же чаще всего узнает лишь итог: достиг цели или нет.

CRL прививает агенту базовый навык: отличать ходы, ведущие к цели, от бесполезных. Обучается это на собственных опытах, без подсказок от людей или заданных наград. По сути, агент бесконечно отвечает на вопрос: этот шаг подходит для пути к цели или нет? Подходящие пары сближают в пространстве, неподходящие — отдаляют.

Чтобы глубокие сети оставались устойчивыми при тренировке, ученые применили три проверенных приема: остаточные связи против потери данных, нормализацию для ровных шагов обучения и особую функцию активации. Глубина работает, только если все три элемента вместе, подчеркивают авторы.

Гуманоидные агенты учатся ходить прямо и перепрыгивать стены

Один из ключевых выводов: эффективность резко растет после преодоления порога глубины. С гуманоидным агентом в симуляции модель на 4 слоя просто кидается к цели. На 16 слоях появляется умение ходить прямо. А на 256 слоях агент придумывает акробатику и перелетает через препятствия. Это первые такие действия в goal-conditioned RL для гуманоидов, отмечают исследователи.

График возможностей гуманоидного агента по мере роста глубины сети
С ростом числа слоев у гуманоидного агента возникают новые умения: 4 слоя — падения, 16 — прямохождение, 64 — провал в U-лабиринте, 256 — акробатические прыжки через стены.

В 8 из 10 заданий CRL с масштабированием глубины обходит все базовые goal-conditioned RL. На самой трудной задаче выигрыш над стандартной сетью превышает 1000 раз.

Глубина эффективнее ширины, но требуется подходящий алгоритм

Раньше в RL масштабировали ширину — число нейронов в слое. Но глубина оказывается мощнее: удвоение до 8 слоев побеждает самые широкие сети при меньшем числе параметров. Классические RL-методы от лишней глубины не выигрывают в экспериментах. Самонаправленный подход CRL решает дело.

Минус — растущие вычисления: глубокие сети тренируются дольше. Пока все в симуляциях. Неясно, как метод перенесется на новые сценарии. Есть тест на inédитых целях, но полные пробы в разнообразии условий впереди. В оффлайн-режиме без взаимодействия с миром лишняя глубина не помогает. Код открыт.

Еще в 2022 году ученые из Гёте-университета во Франкфурте показали, что законы масштабирования из больших языковых моделей подходят и для RL вроде AlphaZero. Производительность росла по степенному закону с размером сети. Новая работа подтверждает: scaling в RL возможен, и глубина сети — ключевой фактор, а не просто общий размер.