Роботы способны выполнять множество задач, если задать им правильные инструкции. Раньше это требовало написания кода, и хотя мы преодолели эту ограниченность, простота использования всё ещё часто конфликтует со сложностью заданий.
ИИ должен изменить ситуацию. Когда искусственный интеллект воплощается в роботах, обретая физическое присутствие, они получают способность к рассуждениям и пониманию окружающего. Это передовая область: в исследованиях примеров embodied AI хватает, но коммерческое применение reasoning-роботов для стабильной ценности пока редкость. Boston Dynamics — одна из немногих фирм, развернувших четвероногих роботов в значительных масштабах: сейчас тысячи таких машин трудятся на объектах. Компания объявила, что её quadruped Spot теперь использует Gemini Robotics-ER 1.6 от Google DeepMind — высокоуровневую модель embodied reasoning, которая повышает удобство и интеллект при сложных работах.
Хотя видео демонстрирует Spot в домашней обстановке, партнёрство ориентировано на редкое коммерчески успешное применение четвероногих роботов: инспекцию. Робот патрулирует промышленные зоны, чтобы предотвратить аварии. С новым ИИ Spot самостоятельно обнаруживает опасный мусор или разлив жидкостей, считывает показания сложных приборов и манометров, а при необходимости прибегает к vision-language-action моделям для анализа ситуации.
«Прогресс вроде Gemini Robotics ER 1.6 — ключевой шаг к роботам, лучше понимающим и действующим в физическом мире», — отметил Марко да Силва, вице-президент и генеральный менеджер по Spot в Boston Dynamics, в пресс-релизе. «Возможности вроде чтения приборов и надёжного рассуждения о заданиях позволяют Spot видеть, понимать и реагировать на реальные проблемы полностью автономно».
Понимание понимания роботов
Слова «рассуждение» и «понимание» всё чаще применяют к ИИ и робототехнике, но, как недавно указал Гилл Пратт из Toyota Research Institute, их практический смысл для роботов не всегда ясен. «Мы ориентируемся на то, чтобы система отвечала так же, как человек», — объяснила Каролина Парада, глава робототехники в Google DeepMind, в интервью. Для безопасного выполнения задач связь между восприятием мира роботом и человеком жизненно важна. Иначе инструкции от человека и действия машины разойдутся.
Видео Boston Dynamics иллюстрирует потенциальную проблему. Одно задание — «переработать банки в гостиной». Spot справляется, но хватает банку боком, что плохо для сосудов с остатками жидкости. Люди избегают этого благодаря жизненному опыту, а роботы такого знания пока лишены.
Парада подчёркивает, что Gemini Robotics-ER 1.6 учитывает безопасность. «Если попросить робота принести стакан воды, он подумает и не поставит его на край стола, где тот упадёт. Мы проверяем это через бенчмарк ASIMOV с множеством примеров запрещённых действий на естественном языке». Текущая версия Spot не применяет эти семантические модели безопасности к манипуляциям, но в будущем роботы научатся держать предметы безопасно.
Между высокоуровневой моделью reasoning Gemini Robotics-ER 1.6 и физическим взаимодействием робота сохраняется разрыв. Новинка в 1.6 — success detection: анализ с нескольких камер для точного определения успешного захвата. Это полезно для зрительного контроля, но роботы имеют и другие методы — тактильные и силовые сенсоры, — которые модель игнорирует. Причина отражает общую проблему робототехники: как обучать модели на физических данных.
«Сейчас модели строго визуальные», — поясняет Парада. «В интернете полно видео, как взять ручку. С достаточным объёмом данных о касаниях мы бы освоили это легко, но таких материалов мало». Клиенты, использующие Spot для инспекций, обязаны делиться данными с Boston Dynamics — оттуда и пойдут новые наборы.
Полезные роботы в реальном мире
Boston Dynamics уникальна среди фирм с четвероногими ИИ-роботами в коммерции: у неё есть клиенты. Им нужно доверять машине — вечная проблема ИИ. «Мы относимся к этому серьёзно», — сказал да Силва в интервью. «Новые возможности DeepMind вводим через бета-программы для ограниченного круга клиентов, чтобы предугадать риски, и рекламируем только проверенные функции».
Роботам вроде Spot нужен порог полезности, и реальный мир не требует идеала. «Большинство критической инфраструктуры оснащено датчиками, сигнализирующими о проблемах», — говорит да Силва. «Но много неинструментированных объектов способно вызвать сбой, если их игнорировать. Мы выяснили: свыше 80 процентов — порог, когда робот не раздражает. Ниже — он бьёт ложную тревогу, и операторы перестают реагировать».
Да Силва и Парада сходятся: в инспекциях роботов есть куда расти. Статус Spot как масштабируемой платформы даёт шанс понять, как модели вроде Gemini Robotics-ER 1.6 приносят максимум пользы, и перенести опыт на другие embodied AI, включая Atlas от Boston Dynamics. Атлас вряд ли станет инспектором, но если эти уроки приблизят безопасных роботов, способных собирать бельё, выгуливать собак и убирать банки без беспорядка, это стоит ожидания.