Данные из виртуальных симуляций ускоряют создание физического ИИ в компаниях, и в этом лидирует проект Ai2 под названием MolmoBot.
Раньше управление оборудованием в реальной среде зависело от дорогостоящих демонстраций, собранных вручную. Разработчики универсальных агентов для манипуляций обычно ставят в основу обширный сбор данных в реальном мире.
Например, проект DROID собрал 76 000 траекторий с помощью телеработы от 13 организаций — это около 350 часов работы людей. Модель RT-1 от Google DeepMind потребовала 130 000 эпизодов, собранных за 17 месяцев операторами. Зависимость от закрытых ручных сборов данных повышает расходы на исследования и ограничивает возможности несколькими богатыми лабораториями.
«Наша цель — создать ИИ, который продвинет науку и расширит горизонты открытий человечества», — отметил Али Фархадди, CEO Ai2. «Робототехника может стать базовым научным инструментом, чтобы ученые работали быстрее и ставили новые задачи. Для этого нужны системы, которые обобщают в реальности, и инструменты, доступные всему миру. Перенос из симуляции в реальность — важный шаг к этому».
Специалисты из Института Аллена по ИИ (Ai2) предлагают иной подход с MolmoBot — открытым набором моделей для роботизированных манипуляций, обученных исключительно на синтетических данных. Команда генерирует траектории процедурно в системе MolmoSpaces, избегая телеработы людей.
Набор данных MolmoBot-Data включает 1,8 миллиона траекторий экспертов. Его создали, объединив физический движок MuJoCo с интенсивной рандомизацией доменов: меняли объекты, точки обзора, освещение и динамику.
«Большинство методов пытаются сократить разрыв между симуляцией и реальностью, добавляя больше реальных данных», — поясняет Ранджай Кришна, директор команды PRIOR в Ai2. «Мы пошли обратным путем: разрыв уменьшается, если резко увеличить разнообразие виртуальных сред, объектов и условий камер. Теперь в робототехнике bottleneck смещается с ручного сбора демонстраций на создание лучших виртуальных миров — и это решаемо».
Генерация данных симуляции для физического ИИ
С помощью 100 видеокарт Nvidia A100 конвейер генерировал около 1024 эпизодов на GPU-час, что дает свыше 130 часов опыта робота за каждый час реального времени.
По сравнению с сбором реальных данных это почти в четыре раза выше производительность, что напрямую повышает отдачу от проектов за счет ускорения развертывания.
Набор MolmoBot содержит три типа политик, протестированных на двух платформах: мобильном манипуляторе Rainbow Robotics RB-Y1 и настольной руке Franka FR3. Основная модель на базе визуально-языковой основы Molmo2 обрабатывает несколько шагов RGB-наблюдений и текстовые инструкции, чтобы выдавать действия.
Гибкость оборудования в MolmoBot от Ai2
Для сред с ограниченными ресурсами, таких как краевые вычисления, команда предлагает MolmoBot-SPOC — легковесную трансформерную политику с меньшим числом параметров. MolmoBot-Pi0 использует основу PaliGemma, чтобы соответствовать архитектуре модели π0 от Physical Intelligence и позволить прямое сравнение результатов.
При тестах в реальности политики показали перенос zero-shot на новые задачи с незнакомыми объектами и окружениями без доработки.
В испытаниях на столешнице основная модель MolmoBot достигла успеха в 79,2%. Это лучше, чем у π0.5, обученной на большом объеме реальных демонстраций, — у той всего 39,2%. Для мобильных манипуляций политики справились с задачами вроде подхода, захвата и потягивания дверей на полный диапазон движения.
Разнообразие архитектур помогает компаниям внедрять мощный физический ИИ без привязки к одному поставщику или масштабной инфраструктуре сбора данных.
Открытый релиз всего стека MolmoBot — данных для обучения, конвейеров генерации и архитектур моделей — позволяет проверять и адаптировать внутри организации. Любой, кто работает с физическим ИИ, может использовать эти инструменты для симуляций и создания систем, контролируя затраты.
«Чтобы ИИ продвинул науку, прогресс не должен зависеть от закрытых данных или изолированных систем», — добавляет Али Фархадди, CEO Ai2. «Нужна общая инфраструктура, на которой ученые по всему миру строят, тестируют и улучшают вместе. Так физический ИИ двинется вперед».