Представляем эффективную локальную модель для робототехники
Сегодня мы представляем Gemini Robotics On-Device — самую мощную модель VLA (vision language action), оптимизированную для локального запуска на роботизированных устройствах. Эта модель демонстрирует превосходную универсальную ловкость и обобщение задач, работая непосредственно на роботе без необходимости подключения к сети.
Поскольку модель функционирует независимо от передачи данных, она идеально подходит для приложений, чувствительных к задержкам, и обеспечивает надежность в условиях нестабильного или отсутствующего подключения.
Мы также выпускаем Gemini Robotics SDK, который поможет разработчикам легко оценивать возможности Gemini Robotics On-Device в своих задачах и средах, тестировать модель в физическом симуляторе MuJoCo и быстро адаптировать её к новым доменам, используя всего 50–100 демонстраций. Разработчики могут получить доступ к SDK, зарегистрировавшись в нашей программе доверенных тестировщиков.
Возможности и производительность модели
Gemini Robotics On-Device — это фундаментальная модель для двуруких роботов, разработанная для минимальных вычислительных ресурсов. Она основана на возможностях обобщения задач и ловкости Gemini Robotics и обладает следующими характеристиками:
- Предназначена для быстрого экспериментирования с точными манипуляциями.
- Адаптируема к новым задачам через дообучение для улучшения производительности.
- Оптимизирована для локальной работы с низкой задержкой вывода.
Модель демонстрирует сильное визуальное, семантическое и поведенческое обобщение в широком диапазоне сценариев тестирования, следует инструкциям на естественном языке и выполняет высокоточные задачи, такие как расстегивание сумок или складывание одежды, — всё это while работая непосредственно на роботе.
В наших оценках локальный режим показывает высокую производительность обобщения при полностью автономной работе. Gemini Robotics On-Device также превосходит другие локальные альтернативы в более сложных задачах вне распределения и при выполнении многоэтапных инструкций. Для разработчиков, ищущих передовые результаты в этих условиях без ограничений локальной работы, мы также предлагаем модель Gemini Robotics.
Чтобы узнать больше о наших оценках, ознакомьтесь с нашим техническим отчетом по Gemini Robotics.
Адаптивность к новым задачам и обобщение across embodiments
Gemini Robotics On-Device — это первая модель VLA, которую мы делаем доступной для дообучения. Хотя многие задачи работают из коробки, разработчики также могут адаптировать модель для достижения лучшей производительности в своих приложениях. Наша модель быстро адаптируется к новым задачам, используя всего 50–100 демонстраций, что показывает, насколько хорошо эта локальная модель может обобщать свои фундаментальные знания для новых задач.
Здесь мы демонстрируем, как Gemini Robotics On-Device превосходит текущую лучшую локальную VLA в задачах, связанных с дообучением на новых моделях. Мы тестировали модель на семи задачах точных манипуляций различной степени сложности, включая застегивание ланч-бокса, вытягивание карты и наливание заправки для салата.
Мы также адаптировали модель Gemini Robotics On-Device к различным конфигурациям роботов. Хотя мы обучали нашу модель только для роботов ALOHA, мы смогли further адаптировать её к двурукому роботу Franka FR3 и гуманоидному роботу Apollo от Apptronik.
На двуруком Franka модель выполняет универсальное следование инструкциям, включая обработку ранее невиданных объектов и сцен, выполнение точных задач, таких как складывание платья, или выполнение промышленных задач сборки ремней, требующих точности и ловкости.
На гуманоиде Apollo мы адаптировали модель к значительно отличающейся конфигурации. Та же универсальная модель может следовать инструкциям на естественном языке и манипулировать различными объектами, включая ранее невиданные, в общем manner.
Ответственная разработка и безопасность
Мы разрабатываем все модели Gemini Robotics в соответствии с нашими принципами ИИ и применяем целостный подход к безопасности, охватывающий семантическую и физическую безопасность.
На практике мы обеспечиваем семантическую и контентную безопасность с помощью Live API и взаимодействуем с нашими моделями через низкоуровневые контроллеры безопасности для выполнения действий. Мы рекомендуем оценивать сквозную систему на нашем недавно разработанном семантическом тесте безопасности и проводить упражнения по красному командированию на всех уровнях, чтобы выявить уязвимости безопасности модели.
Наша команда Responsible Development & Innovation (ReDI) продолжает анализировать и консультировать по реальному воздействию всех моделей Gemini Robotics, находя способы максимизировать их социальное воздействие и минимизировать риски. Затем наш Responsibility & Safety Council (RSC) рассматривает эти оценки, предоставляя обратную связь для интеграции в разработку модели, чтобы помочь further максимизировать benefits и минимизировать risk.
Чтобы получить более глубокое понимание использования и профиля безопасности Gemini Robotics On-Device и собрать обратную связь, мы initially выпускаем её для selected группы доверенных тестировщиков.
Ускорение инноваций в робототехнике
Gemini Robotics On-Device представляет собой шаг вперед в making мощных моделей робототехники более доступными и адаптируемыми — и наше локальное решение поможет сообществу робототехники решить важные challenges задержек и подключения.
Gemini Robotics SDK further ускорит инновации, позволяя разработчикам адаптировать модель к их specific needs. Зарегистрируйтесь для доступа к модели и SDK через нашу программу доверенных тестировщиков.
Мы excited видеть, что сообщество робототехники построит с этими новыми инструментами, пока мы continue исследовать future внедрения ИИ в физический мир.