Новый этап в развитии робототехники от Physical Intelligence
Двухлетний стартап Physical Intelligence из Сан-Франциско, который стал одной из самых обсуждаемых компаний в области ИИ в заливе, представил свежее исследование. В нём описана модель π0.7, способная управлять роботами при выполнении заданий, на которых она не проходила прямого обучения. Даже разработчики компании признают, что этот результат их поразил.
Модель π0.7 знаменует собой начальный, но значимый прогресс на пути к созданию универсального интеллекта для роботов. Такой мозг сможет справляться с неизвестными задачами после простого описания на естественном языке. Если результаты подтвердятся, робототехнический ИИ приблизится к поворотному моменту, аналогичному тому, что произошёл с большими языковыми моделями, где способности растут быстрее, чем ожидалось от объёма данных.
Ключевой аспект исследования — композиционная обобщаемость: умение комбинировать навыки, приобретённые в разных ситуациях, для решения ранее невиданных проблем. Раньше роботов обучали по принципу заучивания: собирали данные по конкретной задаче, настраивали специализированную модель, а потом повторяли процесс для каждой новой. По словам Physical Intelligence, π0.7 меняет этот подход.
«Когда модель перешагивает порог и начинает не просто повторять собранные данные, а комбинировать их по-новому, её возможности растут нелинейно по сравнению с объёмом данных. Подобное масштабирование мы наблюдали в языковых и визуальных задачах», — отмечает сооснователь Physical Intelligence, профессор UC Berkeley Сергей Левин, специалист по ИИ в робототехнике.
Пример работы с аэрофритюрницей
Самый яркий пример из исследования — взаимодействие с аэрофритюрницей, с которой модель почти не сталкивалась во время обучения. Команда обнаружила всего два релевантных эпизода в данных: в одном другой робот просто закрыл дверцу похожего устройства, в другом — робот из открытого датасета по инструкции положил пластиковую бутылку внутрь. π0.7 объединила эти фрагменты с предобучением на веб-данных и разобралась в принципе работы прибора.
«Трудно отследить источник знаний или предсказать успехи и провалы», — говорит исследователь Physical Intelligence Ашвин Балакришна, аспирант Стэнфорда по информатике. Без подсказок модель попыталась приготовить батат в устройстве — получилось сносно. А с пошаговыми вербальными инструкциями, словно объясняя новому сотруднику, робот справился идеально.

Такая возможность корректировки на лету без сбора новых данных или переобучения позволит внедрять роботов в свежие условия и дорабатывать их в реальном времени.
Ограничения модели и пути улучшения
Разработчики честно говорят о слабых сторонах π0.7 и не спешат с выводами. Иногда проблемы возникают не у робота или модели, а у команды.
«Порой неудачи — на нашей совести, из-за слабой инженерии промптов», — поясняет Балакришна. В одном тесте с аэрофритюрницей успех был всего 5%. После получаса доработки формулировок инструкций показатель подскочил до 95%.
Модель пока не берёт сложные многоэтапные задания с одной общей команды. «Нельзя сказать: 'Сделай мне тост'. Но если разобрать по шагам — открыть слот, нажать кнопку, — то выходит хорошо», — добавляет Левин.
Стандартизированных бенчмарков для роботов нет, так что внешняя проверка затруднена. Physical Intelligence сравнила π0.7 с собственными прошлыми специализированными моделями: универсальная версия не уступила в задачах вроде приготовления кофе, складывания белья или сборки коробок.
Неожиданные результаты и сравнения
Самое интересное — степень удивления авторов, которые точно знают состав данных и ожидают поведения модели.
«Обычно, зная данные досконально, я предугадываю возможности модели. Но последние месяцы — сплошные сюрпризы. Купил шестерёнки и попросил робота их повернуть — сработало с ходу», — делится Балакришна.
Левин вспоминает момент с GPT-2, когда модель придумала историю про единорогов в Андах: «Откуда информация о единорогах в Перу? Такая странная комбинация. Видеть подобное в робототехнике — нечто особенное».
Критики отметят разницу в данных: языковые модели имеют весь интернет, роботы — нет. Левин ожидает упрёков в банальности задач: «Робот не делает сальто». Но подчёркивает: настоящая обобщаемость полезнее зрелищных трюков, пусть и выглядит скромнее.
В исследовании осторожно говорится об «начальных признаках» обобщаемости и «первых демонстрациях» способностей. Это научные итоги, а не готовый продукт. Компания с самого начала не даёт сроков коммерциализации.
На вопрос о сроках внедрения Левин уклоняется: «Есть основания для оптимизма, прогресс быстрее ожиданий двухлетней давности. Но точно не скажу».
Инвестиции и перспективы
Physical Intelligence привлекла свыше 1 млрд долларов, последняя оценка — 5,6 млрд. Значительная часть интереса инвесторов связана с сооснователем Лачи Грумом, известным ангелом из Кремниевой долины (инвестировал в Figma, Notion, Ramp). Благодаря ему стартап собрал серьёзные средства без обещаний по срокам выхода на рынок.
Сейчас компания ведёт переговоры о новом раунде на 11 млрд долларов. Команда воздержалась от комментариев.