Американский стартап Physical Intelligence выпустил π0.7 — свежую базовую модель для роботов. Она умеет комбинировать навыки, полученные во время обучения, наподобие того, как языковые модели собирают фрагменты текста из своих данных. Команда называет это первыми проявлениями "композиционной генерализации" в робототехнике.
Основа модели — открытая языковая Gemma 3 от Google с четырьмя миллиардами параметров, дополненная экспертом по действиям на 860 миллионов параметров, который отвечает за реальные движения робота. По словам разработчиков из PI, ключевой элемент — не структура, а метод обучения.
Раньше робот-модели получали на вход лишь краткое описание задания, например "сложи футболку". В π0.7 добавляется много контекста: инструкции по подзадачам на естественном языке, метаданные эпизодов о качестве и скорости демонстрации, метки режимов управления и даже изображения подцелей, показывающие желаемый итог промежуточного шага. Такие изображения создает на лету легковесная модель мира.
Благодаря этому подходу удается использовать данные разной ценности. Неудачные попытки или медленные демо просто помечаются соответствующими метаданными, а не выкидываются.
Один универсал вместо кучи специалистов
Разработчики сообщают: одна модель π0.7 достигает показателей ранее дообученных методом RL специалистов π*0.6 в задачах со складыванием белья, приготовлением эспрессо и сборкой коробок. Перенос на другие платформы тоже срабатывает: двухрычажный промышленный манипулятор UR5e сложил футболки с успехом в 80 процентов случаев, хотя данных по складыванию для него не собирали. По данным PI, это соответствует zero-shot результатам опытных телеооператоров, впервые пробующих задачу на таком роботе.
Новые задания осваиваются через языковое коучинг: человек пошагово объясняет роботу действия. Такие сессии потом используются для тренировки высокоуровневой политики, которая выполняет задачу сама, без сбора традиционных теледанных.
Аэрогриль и спор о композиционной генерализации
Как яркий пример композиционных способностей PI приводит загрузку батата в аэрогриль. Без подсказок модель ошибается, с пошаговым коучингом справляется. В техническом отчете указано: в тренировочных данных всего два эпизода с закрытием аэрогриля роботом плюс материалы из открытого набора DROID с рукой Franka.
При ближайшем рассмотрении демо-видео видно: рука Franka из DROID открывает ящик аэрогриля и кладет внутрь бутылку. По структуре это очень близко к задаче с бататом, которую π0.7 якобы решает за счет перекомбинации навыков. PI подчеркивает, что эти эпизоды "существенно отличаются" от действий мобильного робота в эксперименте, и трактует успех как доказательство свежей сборки навыков — подобно тому, как языковые модели миксуют веб-фрагменты.
Этот спор из мира языковых моделей переходит в робототехнику: действительно ли модель обобщает на новое или вспоминает похожие примеры из тренировки? С LLM это давно обсуждают как data contamination, когда тестовые задачи дублируют тренировочные.
PI в отчете признает: при таком объеме и разнообразии данных трудно гарантировать новизну задач. Однако команда считает, что суть "композиционной генерализации" именно в перекомбинации известных блоков. На практике, по их словам, не важно, продукт ли это обобщения или remix похожих ситуаций.
Феномены языковых моделей приходят в робототехнику
π0.7 намекает: базовые модели роботов достигли масштаба, где проявляются эффекты как у крупных языковых моделей — промт становится критически важен, результаты сильно зависят от контекста, а грань между истинным обобщением, remixом и поиском похожего размывается и выходит на первый план в оценке.
Дополнительные абляции в отчете подтверждают роль метаданных для масштабирования. Без аннотаций качества модель деградирует при добавлении большего объема низкокачественных данных. С метаданными прогресс продолжается даже при падении среднего качества.
Тема моделей с рассуждением в отчете не затрагивается. PI лишь намекает в конце: управляемые модели вроде π0.7 в будущем смогут брать сложные задачи, заранее "продумая" варианты. Пока текущая версия этого не делает самостоятельно.