Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

Масштабирование обучения для разных типов роботов

В партнерстве с 33 лабораториями создан датасет Open X-Embodiment из данных 22 типов роботов, на основе которого разработана модель RT-X для универсального обучения. Эта модель показывает на 50% лучшие результаты на различных роботах и утроивает эффективность в реальных задачах. Ресурсы открыты для сообщества, чтобы ускорить прогресс в робототехнике.

14 октября 2025 г.
4 мин
9

В сотрудничестве с партнерами из 33 научных лабораторий мы объединили данные от 22 различных типов роботов, чтобы сформировать датасет Open X-Embodiment и модель RT-X.

Роботы отлично справляются с узкоспециализированными задачами, но им не хватает универсальности. Обычно модель приходится обучать заново для каждой комбинации задачи, робота и среды. Даже небольшое изменение параметров часто требует полного перезапуска процесса. А что, если объединить знания из разных областей робототехники и разработать подход к созданию универсального робота?

Сегодня мы представляем новый комплект инструментов для обучения универсальным навыкам робототехники на базе различных типов роботов, или воплощений. В партнерстве с 33 академическими лабораториями мы собрали данные от 22 типов роботов, сформировав датасет Open X-Embodiment. Кроме того, мы выпускаем RT-1-X — трансформерную модель робототехники (RT), основанную на RT-1 и обученную на нашем датасете, которая демонстрирует перенос навыков между многими типами роботов.

В этом исследовании мы показываем, что обучение единой модели на данных от нескольких воплощений приводит к существенно лучшим результатам на множестве роботов по сравнению с моделями, обученными на данных от отдельных воплощений. Мы протестировали модель RT-1-X в пяти различных исследовательских лабораториях, достигнув в среднем на 50% повышения уровня успеха на пяти часто используемых роботах по отношению к методам, разработанным специально и независимо для каждого робота. Мы также продемонстрировали, что обучение нашей модели визуального языка и действий RT-2 на данных от нескольких воплощений утроило ее эффективность в реальных робототехнических навыках.

Мы создали эти инструменты, чтобы совместно продвигать исследования по переносу навыков между воплощениями в сообществе робототехников. Датасет Open X-Embodiment и чекпоинт модели RT-1-X теперь доступны для широкого научного сообщества благодаря вкладу лабораторий робототехники по всему миру, которые поделились данными и помогли оценить нашу модель в рамках обязательства по открытому и ответственному развитию этой технологии. Мы уверены, что эти инструменты изменят подход к обучению роботов и ускорят развитие этой области.

Датасет Open X-Embodiment: Сбор данных для обучения ИИ-роботов

Датасеты и модели, обученные на них, сыграли ключевую роль в прогрессе искусственного интеллекта. Подобно тому, как ImageNet подтолкнул исследования в компьютерном зрении, мы считаем, что Open X-Embodiment сможет аналогично продвинуть робототехнику. Создание датасета с разнообразными демонстрациями роботов — это фундаментальный шаг к обучению универсальной модели, способной управлять множеством типов роботов, выполнять разнообразные инструкции, проводить базовое рассуждение о сложных задачах и эффективно обобщать. Однако сбор такого датасета слишком затратен для одной лаборатории.

Для формирования датасета Open X-Embodiment мы объединились с академическими лабораториями из более чем 20 учреждений, чтобы собрать данные от 22 типов роботов, демонстрирующих свыше 500 навыков и 150 000 задач в более чем 1 миллионе эпизодов. Этот датасет является наиболее полным в своем роде среди робототехнических коллекций.

Примеры из датасета Open X-Embodiment, иллюстрирующие свыше 500 навыков и 150 000 задач.

Датасет Open X-Embodiment интегрирует данные из разных воплощений, наборов и навыков.

RT-X: Универсальная модель робототехники

RT-X основана на двух наших трансформерных моделях робототехники. Мы обучили RT-1-X на базе RT-1 — нашей модели для управления роботами в реальном мире в больших масштабах, — а RT-2-X — на базе RT-2, нашей модели визуального языка и действий (VLA), которая учится на веб-данных и робототехнических данных. Благодаря этому мы демонстрируем, что при одинаковой архитектуре модели RT-1-X и RT-2-X достигают более высоких показателей за счет гораздо более разнообразных данных из разных воплощений. Мы также показываем, что они превосходят модели, обученные в конкретных доменах, и проявляют лучшую обобщаемость и новые возможности.

Для оценки RT-1-X в партнерских академических университетах мы сравнили ее производительность с моделями, разработанными для конкретных задач, таких как открытие двери, на соответствующих датасетах. RT-1-X, обученная на датасете Open X-Embodiment, превзошла исходные модели в среднем на 50%.

Средний уровень успеха RT-1-X на 50% выше, чем у соответствующих исходных методов.

Видео оценок RT-1-X, проведенных в разных партнерских университетах.

Появляющиеся навыки в RT-X

Чтобы изучить перенос знаний между роботами, мы провели эксперименты с нашим вспомогательным роботом на задачах, включающих объекты и навыки, отсутствующие в датасете RT-2, но присутствующие в другом датасете для иного робота. В частности, RT-2-X в три раза успешнее предыдущей лучшей модели RT-2 в задачах с появляющимися навыками.

Наши результаты указывают, что совместное обучение с данными от других платформ наделяет RT-2-X дополнительными навыками, которых не было в исходном датасете, позволяя выполнять новые задачи.

RT-2-X демонстрирует понимание пространственных отношений между объектами.

RT-2-X проявляет навыки, недоступные ранее модели RT-2, включая улучшенное пространственное восприятие. Например, если попросить робота "переместить яблоко рядом с тканью" вместо "переместить яблоко на ткань", траектории существенно различаются. Изменяя предлог с "рядом" на "на", мы можем корректировать действия робота.

RT-2-X показывает, что интеграция данных от других роботов в обучение расширяет спектр выполняемых задач даже для робота с большим объемом доступных данных — но только при использовании архитектуры с достаточной емкостью.

RT-2-X (55B): одна из самых крупных моделей на сегодняшний день, выполняющая невиданные задачи в академической лаборатории.

Ответственное продвижение исследований в робототехнике

Исследования в робототехнике находятся на волнующем, но раннем этапе. Новые работы демонстрируют потенциал создания более полезных вспомогательных роботов путем масштабирования обучения с использованием более разнообразных данных и улучшенных моделей. Сотрудничество с лабораториями по всему миру и обмен ресурсами жизненно важны для продвижения робототехники открыто и ответственно. Мы надеемся, что открытый доступ к данным и предоставление безопасных, но ограниченных моделей снизит барьеры и ускорит исследования. Будущее робототехники зависит от способности роботов учиться друг у друга, а главное — от возможности исследователей обмениваться знаниями.

Эта работа подтверждает, что модели, обобщающие навыки между воплощениями, реальны, с драматическим ростом производительности как на роботах в Google DeepMind, так и на роботах в университетах по всему миру. Будущие исследования могут изучить комбинацию этих достижений с свойством самоулучшения, как в RoboCat, чтобы модели могли прогрессировать на основе собственного опыта. Другим направлением может стать более глубокий анализ влияния различных смесей датасетов на обобщение между воплощениями и механизмов этого улучшения.