Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

OpenClaw-RL обучает ИИ-агентов просто через разговоры

Ученые из Принстонского университета создали OpenClaw-RL — фреймворк, который обучает ИИ-агентов на сигналах из повседневных взаимодействий, превращая ответы пользователей в данные для RL. Сочетает Binary RL и OPD для оценок и корректировок. После десятков шагов точность растет: в симуляциях персонализация до 0.90, в задачах GUI и tool-call — на 0.02–0.13.

15 марта 2026 г.
6 мин
39

Фреймворк OpenClaw-RL использует сигналы от каждой взаимодействия как источник для обучения в реальном времени. Личные беседы, команды в терминале и действия в графическом интерфейсе поступают в общий цикл дообучения.

Каждое взаимодействие ИИ-агента с пользователем или средой рождает последующий сигнал: ответ пользователя, результат инструмента, изменение статуса в терминале или на экране. Раньше такие данные применялись только как контекст для следующего шага, а потом отбрасывались.

Ученые из Принстонского университета считают это серьезным упущением. Их фреймворк OpenClaw-RL извлекает пользу из этих сигналов прямо во время работы. Вместо разделения личных чатов, команд в терминале, взаимодействий с GUI, задач по разработке ПО и вызовов инструментов на разные этапы обучения, система направляет все потоки в единый процесс для улучшения одной модели.

Схема архитектуры OpenClaw-RL. Слева показаны личные агенты (OpenClaw) и универсальные (Terminal, GUI, SWE, Tool-Call), подключенные через серверы окружений к личным устройствам и облачным сервисам. Справа — RL-сервер с тремя компонентами: Training Engine, Policy Server и PRM Server, объединенными в асинхронный цикл.
OpenClaw-RL связывает личных и универсальных агентов через серверы окружений с RL-сервером, где четыре компонента работают асинхронно, не блокируя друг друга.

Последующие сигналы дают оценку и направление

Сигналы после действий несут два вида информации, которые раньше игнорировались. Первый — оценочные сигналы. Повторный вопрос пользователя указывает на неудовлетворенность. Прошедший автоматический тест подтверждает успех шага. Такие индикаторы служат естественной проверкой качества без ручной разметки. Старые методы использовали их постфактум, опираясь на собранные заранее данные.

Второй вид — направляющие сигналы. Фраза вроде «Сначала стоило проверить файл» четко подсказывает, что именно следовало сделать иначе, а не просто отмечает ошибку. Обычные системы подкрепления в RL сжимают подобный отзыв в одно число, теряя детали на уровне содержания.

Четыре независимых компонента обеспечивают непрерывное обучение

Архитектура OpenClaw-RL делится на четыре независимых блока: один обслуживает модель для запросов, другой управляет окружениями, третий оценивает качество ответов, четвертый проводит дообучение. Ни один не ждет другого — модель отвечает на новый запрос, пока оценщик анализирует предыдущий, а тренер обновляет веса параллельно.

Для личных агентов устройство пользователя подключается к серверу обучения через защищенный API. Обновления весов применяются без перебоев. Универсальные агенты масштабируются в облаке с до 128 параллельными экземплярами.

Модель учится на улучшенной версии самой себя

OpenClaw-RL сочетает два метода оптимизации. Простой Binary RL использует оценочную модель, которая классифицирует действие как хорошее, плохое или нейтральное по сигналу с помощью голосования большинством. Результат идет в обучение как стандартное подкрепление.

Три схематичных изображения методов OpenClaw-RL. Слева: Binary Reward, где отзыв пользователя или среды классифицируется как хороший или плохой. В центре: On-Policy Distillation, где подсказки генерируют сигнал учителя, а разница на уровне токенов между учителем и учеником рассчитывается. Справа: пошаговое подкрепление для траекторий агента, сочетающее исходный и процессуальный вознаграждения.
Обзор методов обучения в OpenClaw-RL. Бинарное подкрепление из бесед слева, дистилляция с корректирующими инструкциями в центре, пошаговая оценка для универсальных агентов справа.

Более продвинутый метод — Hindsight-Guided On-Policy Distillation (OPD). Оценочная модель извлекает из сигнала корректирующую подсказку в 1–3 предложения и добавляет ее к исходному запросу. Затем та же модель вычисляет, насколько вероятно было бы сгенерировать каждый токен оригинального ответа, если бы подсказка была известна заранее.

Разница создает направляющий сигнал для каждого токена: модель в будущем предпочтет одни формулировки и отвергнет другие. Отдельная модель-учитель или заранее собранные данные не требуются.

Binary RL охватывает все взаимодействия широко, OPD дает точные правки на уровне токенов для информативных случаев. Комбинация методов дает наилучший эффект, по словам ученых.

Несколько десятков взаимодействий уже улучшают агента

Ученые проверили OpenClaw-RL на модели Qwen3-4B в двух симулированных сценариях. В одном языковая модель выступает учеником, использующим OpenClaw для домашки, но избегающим обнаружения как ИИ. В другом — учителем, ждущим конкретных, дружелюбных отзывов.

Сравнение ответов OpenClaw до и после оптимизации в двух сценариях. Слева, сценарий ученика: до — форматированный текст с выделением, типичный для ИИ; после — естественный потоковый текст. Справа, сценарий учителя: до — краткий безличный комментарий; после — подробный дружелюбный отзыв с предложениями. Таблица: ученик с 0.17 до 0.76, учитель с 0.22 до 0.90.
Сравнение ответов OpenClaw до и после. В сценарии ученика уходит ИИ-стиль; в сценарии учителя отзывы становятся конкретными и теплыми. После восьми шагов обучения персонализация резко растет.

В сценарии ученика показатель персонализации с 0.17 подскочил до 0.76 после восьми шагов комбинированным методом. Binary RL дал 0.25, OPD — 0.25 после восьми шагов, но 0.72 после 16. В сценарии учителя — с 0.22 до 0.90. После нескольких десятков взаимодействий агент избавился от ИИ-штампов и стал писать естественно.

Для универсальных агентов фреймворк протестировали с разными моделями Qwen3 в сценариях терминала, GUI, разработки ПО и вызовов инструментов. Интеграция оценок помогла. В вызовах инструментов успех вырос с 0.17 до 0.30, в GUI — с 0.31 до 0.33.

Четыре графика точности по шагам RL-обучения для агентов терминала, GUI, SWE и tool-call. Терминал: с 0.17 до почти 0.50 за 100 шагов. GUI: с 0.26 до 0.31 за 120 шагов. SWE: с 0.05 до 0.18 за 35 шагов с начальным провалом. Tool-call: с 0.08 до 0.17 за 250 шагов.
Кривые обучения для четырех типов агентов. Точность растет во всех сценариях по мере RL-шагов, особенно для терминала и вызовов инструментов.

Фреймворк впервые объединяет потоки взаимодействий — от личных бесед до задач разработки — в единый цикл обучения. Код доступен на GitHub.

Проект из Принстона использует название популярного open-source агента OpenClaw и опирается на его инфраструктуру, но остается независимым исследованием без связи с основной командой платформы. Основатель OpenClaw Питер Штайнбергер передал проект фонду и перешел в OpenAI для работы над следующим поколением личных ИИ-агентов.