Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

RT-2: модель для преобразования зрения и языка в действия

Robotic Transformer 2 (RT-2) — это передовая модель видения-языка-действия, которая интегрирует веб-данные и роботизированные демонстрации для улучшенного управления роботами. Она демонстрирует превосходное обобщение на новые сценарии, включая семантическое рассуждение и цепочку мыслей, достигая успеха до 90% в задачах. Разработка опирается на PaLI-X и PaLM-E, обеспечивая перенос знаний из интернета в робототехнику.

14 октября 2025 г.
7 мин
7

Роботизированный трансформер 2 (RT-2) представляет собой инновационную модель видения-языка-действия (VLA), которая обучается на данных из интернета и робототехники, преобразуя эти знания в обобщенные команды для управления роботами.

Модели с высокой емкостью, объединяющие видение и язык (VLMs), проходят обучение на огромных наборах данных из сети, что позволяет им эффективно распознавать визуальные и языковые шаблоны, а также работать с различными языками. Однако для достижения аналогичного уровня мастерства роботам требуется сбор данных непосредственно с помощью роботов по каждому объекту, окружению, задаче и сценарию.

В представленной работе вводится Robotic Transformer 2 (RT-2), инновационная модель видения-языка-действия (VLA), которая сочетает данные из интернета и робототехники, переводя эти сведения в обобщенные инструкции для роботизированного управления, при этом сохраняя возможности масштаба веб-данных.

Модель видения-языка (VLM), предварительно обученная на данных веб-масштаба, осваивает данные робототехники RT-1, превращаясь в RT-2 — модель видения-языка-действия (VLA), способную управлять роботом.

Эта разработка опирается на Robotic Transformer 1 (RT-1), модель, обученную на демонстрациях многозадачного характера, которая способна усваивать комбинации задач и объектов, присутствующих в роботизированных данных. В частности, использовались данные демонстраций RT-1, собранные с помощью 13 роботов в течение 17 месяцев в условиях офисной кухни.

RT-2 демонстрирует повышенные возможности обобщения, а также понимание семантики и визуальных аспектов, выходящее за рамки данных робототехники, на которых она обучалась. Это проявляется в интерпретации новых команд и реакции на указания пользователей через выполнение базового рассуждения, например, о категориях объектов или общих описаниях.

Кроме того, интеграция рассуждения в стиле цепочки мыслей позволяет RT-2 осуществлять многоэтапное семантическое мышление, такое как выбор объекта для импровизированного молотка (камень) или подходящего напитка для уставшего человека (энергетический напиток).

Адаптация моделей VLMs для управления роботами

RT-2 основана на моделях VLMs, которые принимают одно или несколько изображений в качестве входа и генерируют последовательность токенов, традиционно представляющих естественный язык. Такие модели VLMs успешно обучались на данных веб-масштаба для задач вроде ответов на визуальные вопросы, подписи изображений или распознавания объектов. В нашем подходе мы адаптируем модель Pathways Language and Image (PaLI-X) и модель Pathways Language model Embodied (PaLM-E) в качестве основы для RT-2.

Для управления роботом модель должна генерировать действия. Мы решаем эту задачу, представляя действия в виде токенов в выходе модели — аналогично языковым токенам — и описывая их как строки, обрабатываемые стандартными токенизаторами естественного языка, как показано ниже:

Представление строки действия, применяемое в обучении RT-2. Пример такой строки — последовательность номеров токенов действий робота, например, «1 128 91 241 5 101 127 217».

Строка начинается с флага, обозначающего продолжение или завершение текущего эпизода без выполнения последующих команд, за которым следуют инструкции по изменению позиции и поворота конечного эффектора, а также желаемому растяжению захвата робота.

Мы применяем ту же дискретизированную версию действий робота, что и в RT-1, и показываем, что преобразование в строковую форму позволяет обучать модели VLM на роботизированных данных — поскольку пространства входа и выхода таких моделей остаются неизменными.

Архитектура и обучение RT-2: Мы совместно дообучаем предварительно обученную модель VLM на данных робототехники и интернета. Полученная модель принимает изображения с камеры робота и напрямую предсказывает действия для выполнения роботом.

Обобщение и возникающие навыки

Мы провели серию качественных и количественных экспериментов с моделями RT-2 на более чем 6000 роботизированных испытаниях. Изучая возникающие возможности RT-2, мы сначала искали задачи, требующие комбинации знаний из данных веб-масштаба и опыта робота, и определили три категории навыков: понимание символов, рассуждение и распознавание людей.

Каждый тест предполагал понимание визуально-семантических понятий и способность к роботизированному управлению для работы с этими понятиями. Команды вроде «возьми сумку, которая вот-вот упадет со стола» или «перемести банан на позицию, равную сумме двух плюс один» — где робот выполняет манипуляции с объектами или сценариями, не встречавшимися в роботизированных данных — требовали знаний, перенесенных из веб-данных.

Примеры возникающих роботизированных навыков, отсутствующих в данных робототехники и требующих переноса знаний из предварительного обучения на веб-данных.

Во всех категориях наблюдалось значительное улучшение обобщения (более чем в 3 раза) по сравнению с предыдущими базовыми моделями, такими как RT-1 и модели вроде Visual Cortex (VC-1), предварительно обученные на больших визуальных наборах.

Уровни успеха в оценке возникающих навыков: модели RT-2 превосходят базовые модели роботизированного трансформера (RT-1) и визуального предварительного обучения (VC-1).

Мы также осуществили серию количественных оценок, начиная с исходных задач RT-1, для которых в данных робота есть примеры, и продолжая с различными степенями ранее невидимых объектов, фонов и окружений, где робот должен был обобщать на основе предварительного обучения VLM.

Примеры ранее невидимых окружений для робота, где RT-2 обобщает на новые ситуации.

RT-2 сохранила производительность на исходных задачах из данных робота и повысила ее на ранее невиданных сценариях с 32% у RT-1 до 62%, демонстрируя существенную пользу от предварительного обучения на большом масштабе.

Дополнительно, мы отметили значительные улучшения по сравнению с базовыми моделями, предварительно обученными только на визуальных задачах, такими как VC-1 и Reusable Representations for Robotic Manipulation (R3M), а также алгоритмами, использующими VLMs для идентификации объектов, вроде Manipulation of Open-World Objects (MOO).

RT-2 достигает высокой производительности на задачах в распределении и превосходит несколько базовых моделей на задачах вне распределения.

Оценивая нашу модель на открытом наборе задач Language Table для робототехники, мы достигли уровня успеха 90% в симуляции, существенно улучшив показатели по сравнению с предыдущими базовыми моделями, включая BC-Z (72%), RT-1 (74%) и LAVA (77%).

Затем мы протестировали ту же модель в реальном мире (поскольку она обучалась на симуляционных и реальных данных) и продемонстрировали ее способность обобщать на новые объекты, как показано ниже, где ни один из объектов, кроме синего куба, не присутствовал в обучающем наборе.

RT-2 хорошо справляется с задачами Language Table на реальном роботе. Ни один из объектов, кроме синего куба, не был в обучающих данных.

Вдохновленные методами подсказок в стиле цепочки мыслей, применяемыми в больших языковых моделях (LLMs), мы исследовали комбинацию роботизированного управления с рассуждением в цепочке мыслей, чтобы позволить модели учить долгосрочное планирование и низкоуровневые навыки в единой системе.

В частности, мы дообучили вариант RT-2 всего за несколько сотен шагов градиента, чтобы усилить ее способность совместного использования языка и действий. Затем мы расширили данные, добавив шаг «План», где сначала описывается цель предстоящего действия робота на естественном языке, за которым следует «Действие» и токены действий. Вот пример такого рассуждения и поведения робота:

Рассуждение в стиле цепочки мыслей позволяет создать самодостаточную модель, которая может планировать последовательности долгосрочных навыков и предсказывать действия робота.

Благодаря этому процессу RT-2 способна выполнять более сложные команды, требующие размышлений о промежуточных шагах для реализации инструкции пользователя. Благодаря основе VLM, RT-2 может планировать как из изображений, так и из текстовых команд, обеспечивая планирование, основанное на визуальном восприятии, в то время как текущие подходы вроде SayCan не видят реальный мир и полагаются исключительно на язык.

Продвижение управления роботами

RT-2 демонстрирует, что модели видения-языка (VLMs) можно преобразовать в мощные модели видения-языка-действия (VLA), которые напрямую управляют роботом, сочетая предварительное обучение VLM с роботизированными данными.

С двумя реализациями VLA на базе PaLM-E и PaLI-X, RT-2 приводит к высокоэффективным политикам для роботов и, что важнее, обеспечивает значительно лучшее обобщение и возникающие возможности, унаследованные от предварительного обучения на веб-данных видения-языка.

RT-2 не только представляет собой простую и действенную модификацию существующих моделей VLM, но и показывает перспективы создания универсального физического робота, способного рассуждать, решать проблемы и интерпретировать информацию для выполнения разнообразных задач в реальном мире.