Новая эра физических агентов
Мы открываем эру физических агентов — наделяем роботов способностью воспринимать, планировать, мыслить, использовать инструменты и действовать для решения сложных многоэтапных задач.
Ранее в этом году мы достигли значительного прогресса в интеграции мультимодального понимания Gemini в физический мир, начав с семейства моделей Gemini Robotics.
Сегодня мы делаем ещё один шаг к созданию интеллектуальных универсальных роботов. Представляем две модели, которые открывают возможности агентного поведения с продвинутым мышлением:
- Gemini Robotics 1.5 — Наша самая совершенная модель vision-language-action (VLA) преобразует визуальную информацию и инструкции в моторные команды для выполнения задач. Эта модель думает перед действием и показывает свой процесс, помогая роботам оценивать и выполнять сложные задачи более прозрачно. Она также обучается across embodiments, ускоряя освоение навыков.
- Gemini Robotics-ER 1.5 — Наша самая продвинутая vision-language модель (VLM) рассуждает о физическом мире, нативно вызывает цифровые инструменты и создаёт детальные многоэтапные планы для выполнения миссий. Эта модель демонстрирует state-of-the-art производительность в бенчмарках пространственного понимания.
Эти достижения помогут разработчикам создавать более способных и универсальных роботов, которые могут активно понимать своё окружение для выполнения сложных многоэтапных задач универсальным способом.
Начиная с сегодняшнего дня, Gemini Robotics-ER 1.5 доступна разработчикам через Gemini API в Google AI Studio. Gemini Robotics 1.5 в настоящее время доступна избранным партнёрам.
Gemini Robotics 1.5: Агентные возможности для физических задач
Большинство повседневных задач требуют контекстной информации и множества шагов для выполнения, что делает их исключительно сложными для современных роботов.
Например, если робота попросить: «Исходя из моего местоположения, можешь рассортировать эти объекты по правильным контейнерам для компоста, переработки и мусора?», ему потребуется найти соответствующие местные правила переработки в интернете, посмотреть на объекты перед собой и решить, как их сортировать на основе этих правил — а затем выполнить все шаги, чтобы полностью их убрать. Чтобы помочь роботам выполнять такие сложные многоэтапные задачи, мы разработали две модели, которые работают вместе в агентной framework.
Наша модель воплощённого reasoning, Gemini Robotics-ER 1.5, оркестрирует деятельность робота, как высокоуровневый мозг. Эта модель excels в планировании и принятии логических решений в физических средах. Она обладает state-of-the-art пространственным пониманием, взаимодействует на естественном языке, оценивает свой успех и прогресс и может нативно вызывать инструменты, такие как Google Search, для поиска информации или использовать любые пользовательские функции третьих сторон.
Gemini Robotics-ER 1.5 затем передаёт Gemini Robotics 1.5 инструкции на естественном языке для каждого шага, которая использует своё зрение и языковое понимание для непосредственного выполнения конкретных действий. Gemini Robotics 1.5 также помогает роботу думать о своих действиях для лучшего решения семантически сложных задач и даже может объяснять свои мыслительные процессы на естественном языке — делая свои решения более прозрачными.
Обе эти модели построены на основе core семейства моделей Gemini и были доработаны с разными наборами данных для специализации в своих respective ролях. В сочетании они повышают способность робота обобщать для более длительных задач и более разнообразных сред.
Понимание окружающей среды
Gemini Robotics-ER 1.5 — это первая thinking модель, оптимизированная для воплощённого reasoning. Она демонстрирует state-of-the-art производительность как на академических, так и на внутренних бенчмарках, вдохновлённых реальными use cases из нашей программы trusted tester.
Мы оценили Gemini Robotics-ER 1.5 на 15 академических бенчмарках, включая Embodied Reasoning Question Answering (ERQA) и Point-Bench, измеряя производительность модели на pointing, image question answering и video question answering.
Gemini Robotics-ER 1.5 показывает state-of-the-art результаты по сравнению с similar моделями. Наша модель достигает наивысшей агрегированной производительности на 15 академических бенчмарках воплощённого reasoning, включая Point-Bench, RefSpatial, RoboSpatial-Pointing, Where2Place, BLINK, CV-Bench, ERQA, EmbSpatial, MindCube, RoboSpatial-VQA, SAT, Cosmos-Reason1, Min Video Pairs, OpenEQA и VSI-Bench.
Модель демонстрирует capabilities, включая object detection и state estimation, segmentation mask, pointing, trajectory prediction и task progress estimation и success detection.
Мышление перед действием
Традиционно vision-language-action модели переводят инструкции или linguistic планы непосредственно в движение робота. В дополнение к простому переводу инструкций или планов, Gemini Robotics 1.5 теперь может думать перед действием. Это означает, что она может генерировать внутреннюю последовательность reasoning и analysis на естественном языке для выполнения задач, требующих множества шагов или более глубокого семантического понимания.
Например, при выполнении задачи типа «Отсортируй моё бельё по цвету» робот на видео думает на разных уровнях. Сначала он понимает, что сортировка по цвету означает помещение белой одежды в белый контейнер, а другой одежды — в чёрный. Затем он думает о шагах, которые нужно предпринять, например, взять красный свитер и положить его в чёрный контейнер, и о detailed motion involved, например, подвинуть свитер ближе, чтобы легче его взять.
В ходе этого multi-level thinking процесса vision-language-action модель может решить разбить длительные задачи на более простые короткие сегменты, которые робот может успешно выполнить. Это также помогает модели обобщать для решения новых задач и быть более robust к изменениям в её окружении.
Обучение across embodiments
Роботы бывают разных форм и размеров, имеют разные sensing capabilities и разные степени свободы, что затрудняет передачу движений, изученных на одном роботе, другому.
Gemini Robotics 1.5 демонстрирует remarkable способность обучаться across different embodiments. Она может передавать движения, изученные на одном роботе, другому, без необходимости специализировать модель для каждого нового embodiment. Этот прорыв ускоряет изучение новых behaviors, помогая роботам становиться умнее и полезнее.
Например, мы наблюдаем, что задачи, представленные только роботу ALOHA 2 во время training, также работают на гуманоидном роботе Apollo от Apptronik и би-arms роботе Franka, и vice versa.
Ответственное развитие ИИ и робототехники
По мере раскрытия полного потенциала воплощённого ИИ мы proactively разрабатываем novel safety и alignment подходы, чтобы обеспечить responsible развёртывание агентных ИИ-роботов в human-centric средах.
Наш Responsibility & Safety Council (RSC) и Responsible Development & Innovation (ReDI) team сотрудничают с Robotics team, чтобы обеспечить соответствие development этих моделей нашим AI Principles.
Gemini Robotics 1.5 реализует holistic подход к безопасности через high-level semantic reasoning, включая thinking о безопасности перед действием, обеспечение respectful диалога с людьми через alignment с существующими Gemini Safety Policies и активацию low-level safety sub-systems (например, для избежания столкновений) на борту робота, когда это необходимо.
Чтобы направлять наше safe development моделей Gemini Robotics, мы также выпускаем обновление ASIMOV benchmark, comprehensive collection наборов данных для evaluating и improving semantic safety, с лучшим tail coverage, улучшенными annotations, новыми типами safety вопросов и новыми video modalities.
В наших safety evaluations на ASIMOV benchmark Gemini Robotics-ER 1.5 показывает state-of-the-art производительность, и её thinking ability значительно способствует improved пониманию semantic safety и лучшему adherence к physical safety constraints.
Веха на пути к AGI в физическом мире
Gemini Robotics 1.5 знаменует important веху на пути к решению AGI в физическом мире. Вводя agentic capabilities, мы выходим за рамки моделей, которые реагируют на команды, и создаём системы, которые могут truly рассуждать, планировать, активно использовать инструменты и обобщать.
Это foundational шаг к созданию роботов, которые могут navigate сложности физического мира с intelligence и dexterity и, в конечном итоге, стать более helpful и integrated в нашу жизнь.
Мы excited продолжить эту работу с broader research community и не можем дождаться, чтобы увидеть, что robotics community построит с нашей последней моделью Gemini Robotics-ER.