Nvidia создала CaP-X: ИИ проваливают управление роботами

Nvidia GR00T N1.5

Новый фреймворк от Nvidia, UC Berkeley и Stanford проверяет, насколько эффективно модели ИИ управляют роботами с помощью самостоятельно написанного кода. Вывод: без готовых абстракций созданных людьми даже лидеры рынка терпят неудачу, зато масштабирование вычислений на этапе тестирования и другие подходы существенно сближают результаты.

Специалисты из Nvidia, UC Berkeley, Stanford и Carnegie Mellon представили CaP-X — открытый фреймворк для комплексной оценки способностей ИИ-агентов к написанию программ управления роботами. Главный итог: ни одна из протестированных 12 передовых моделей не достигает стабильности кода, написанного людьми, с первой попытки.

Суть исследования проста: вместо дообучения специализированных моделей на огромных наборах данных с движениями универсальные языковые модели генерируют управляющий код. Чтобы это заработало, авторы применили проверенные на языковых моделях приемы к робототехнике — обучение с подкреплением на основе проверяемых наград из физических симуляций, увеличение вычислений во время теста за счет параллельной генерации решений и самокоррекции, а также шаблоны поведения агентов вроде автоматической отладки и накопления переиспользуемых функций, как у агентов для разработки софта.

В экспериментах задействовали Gemini-3-Pro, GPT-5.2, Claude Opus 4.5 и открытые модели вроде Qwen3-235B и DeepSeek-V3.1. Тестировали на семи задачах манипуляции — от подъема кубика до координации двух рук.

Бенчмарк CaP-X: даже топ-модели проваливают большинство задач робототехники без абстракций высокого уровня — Даже самые мощные протестированные модели не справляются с большинством робототехнических задач, если им недоступны абстракции высокого уровня.

Эффективность сильно меняется в зависимости от доступных конструкций. Если модели получают готовые команды вроде «захвати объект X и подними», им достаточно лишь расставить их в нужном порядке. Но при замене этих удобных функций на базовые операции — сегментацию изображений, обработку глубины, планирование захвата и обратную кинематику — показатели резко падают. Теперь моделям приходится верно соединять десятки строк кода там, где раньше хватало одного вызова функции.

Прямая подача изображений с камеры ухудшает результаты

Забавно, но включение сырых снимков с камеры прямо в контекст моделей дает еще худшие итоги. Авторы предполагают проблему с согласованностью модальностей — базовые модели редко учатся рассуждать одновременно о коде и реальном исполнении на роботе.

Гораздо успешнее промежуточный «Модуль визуальных различий». Отдельная модель зрения-языка сначала описывает сцену текстом, выделяет ключевые свойства задачи, а после каждого шага сообщает об изменениях на изображении и статусе завершения. Этот структурированный текст становится основой для следующей генерации кода агентом. Такой метод стабильно превосходит как сырые логи консоли, так и прямую подачу изображений.

Агент без дообучения достигает уровня человека

На базе этих открытий создали CaP-Agent0 — систему без дообучения с тремя ключевыми частями. Во-первых, упомянутый Модуль визуальных различий для текстового отчета о статусе после шагов. Во-вторых, библиотека функций, которая автоматически собирает полезные блоки из удачных запусков — вроде преобразований координат или фильтров поз захвата — и предлагает их для следующих задач. В-третьих, параллельная генерация кода: создают девять вариантов решений сразу, либо от одной модели при разных температурах, либо распределяя по Gemini-3-Pro, GPT-5.2 и Claude Opus 4.5. Надзорный агент потом объединяет их в итоговый код.

Часть идей восходит к Voyager — агенту для Minecraft от команды соавтора Джима Фана, главы робототехники в Nvidia и со-лидера GEAR Lab, которая стоит за моделями Gr00t компании.

Модель автоматически разбивает задачу высокого уровня (спуститься на лифте) на подшаги (нажать кнопку, опустить руку, заехать в лифт), применяя инструменты программирования и математики для нажатия кнопки. | Видео: https://capgym.github.io/

Несмотря на опору только на базовые блоки, CaP-Agent0 не уступает или превосходит человеческий код на четырех из семи задач. Сравнили систему с моделями Vision-Language-Action (VLA), которые управляют роботами через выученные паттерны движений из больших датасетов демонстраций, а не код. На бенчмарке LIBERO-PRO с измененными позициями объектов и перефразированными инструкциями CaP-Agent0 показал результаты близкие к VLA от Physical Intelligence pi0.5 при сдвигах позиций.

При перефразировке описаний задач CaP-Agent0 оказался заметно устойчивее, поскольку напрямую понимает инструкции, а не полагается на конкретное распределение из обучения.

Обучение с подкреплением резко усиливает малую модель

Помимо CaP-Agent0 без дообучения фреймворк предлагает CaP-RL — способ улучшения языковых моделей для робототехники через обучение с подкреплением. Модель получает награды из симуляций физики: успешное движение от сгенерированного кода приносит положительный сигнал.

Модель Qwen2.5-Coder-7B после такого обучения подняла успех в укладке кубиков с 4 до 44 процентов в симуляции. На реальном роботе Franka та же модель достигла 76 процентов без дополнительной настройки, поскольку оптимизирует через абстрактные интерфейсы программирования, а не изображения с камеры. Разница между симуляцией и реальностью почти не влияет.

Авторы предлагают гибридные системы, где агенты-кодеры берут логику задач высокого уровня и восстановление, а специализированные VLA-политики — точное управление моторами. Полный фреймворк CaP-X — включая CaP-Gym, CaP-Bench, CaP-Agent0 и CaP-RL — доступен как открытая платформа для исследователей.

ИИ-модели не справляются с роботами без человеческих абстракций, но новые методы выравнивают шансы

Прямая подача изображений с камеры ухудшает результаты

Агент без дообучения достигает уровня человека

Обучение с подкреплением резко усиливает малую модель

Горячее

Anthropic объяснила быстрый расход лимитов Claude Code

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Топ-5 CLI-инструментов для агентного кодирования

Топ-5 API-провайдеров открытых ИИ-моделей

Open Notebook: альтернатива NotebookLM

Сейчас в тренде