Wetour Robotics: тело человека как интерфейс для ИИ

Wetour Robotics предлагает концепцию Spatial Intent Fusion, превращающую тело человека в интерфейс для управления техникой. Платформа Orchestra на NVIDIA Jetson объединяет пространственные, визуальные и жестовые сигналы, обеспечивая управление без экранов и голоса с задержкой менее 100 мс. Это дополнит развитие роботов и создаст данные для обучения воплощённого ИИ.

Представьте техника на ветрогенераторе: страховка закреплена, обе руки заняты гаечным ключом, а ему нужно отдать команду диагностическому устройству на поясе. Или работника склада в перчатках, которому требуется перенаправить подключённую тележку, не отвлекаясь от поддона. Или человека на инвалидной коляске, желающего тихо продвинуться вперёд в толпе, без телефона и голосовых команд. Во всех этих ситуациях нужен не более продвинутый робот, а более умный способ быть услышанным теми машинами, которые уже существуют.

Индустрия развивалась однобоко

Последние три года физический ИИ демонстрировал поразительный прогресс на стороне роботов. Такие компании, как Boston Dynamics, Figure и Unitree, подняли приводы, передвижение и манипуляции на уровень, немыслимый десять лет назад. Модели Google DeepMind Gemini Robotics переосмыслили, на что способны системы «зрение-язык-действие» в неструктурированной среде. Развитие оборудования и базовых моделей идёт и ускоряется.

Однако вторая сторона этого взаимодействия слишком долго считалась решённой проблемой. Интерфейс между человеком и машиной вот уже 40 лет сводится к трём способам ввода: экраны, кнопки и голос. Каждый из них предполагает, что пользователь может остановиться, опустить взгляд и перевести намерение в структурированные команды. Это допущение ломается, как только работа перемещается в реальные условия — на турбину, погрузочную платформу, тротуар. Везде, где заняты руки, взгляд направлен на задачу или голос непрактичен, традиционный интерфейс незаметно отказывает.

Ставка Wetour Robotics: вернуть человека в вычислительный контур

В Wetour Robotics считают, что следующий архитектурный скачок в физическом ИИ не в том, чтобы сделать робота более способным. Он в том, чтобы сделать человека полноправным узлом вычислительной сети, с такой же малой задержкой и высокой точностью участия, какими уже обладают подключённые устройства.

Инженеры компании формулируют проблему так: браслета, распознающего жест, недостаточно. Камеры, распознающей сцену, недостаточно. Информация, которую несёт человек о том, что он собирается сделать, распределена по нескольким каналам: где его тело в пространстве, на что смотрят его глаза и что готовятся сделать его мышцы, и любой отдельный канал, наблюдаемый изолированно, двусмыслен. Надёжное восстановление намерения требует слияния этих каналов на уровне операционной системы, с задержками, достаточно низкими, чтобы контур ощущался замкнутым, а не опосредованным.

Этот подход получил название Spatial Intent Fusion — одновременная обработка трёх потоков человекоцентричной информации: пространственного положения, визуального контекста и жестового намерения. Они объединяются в единую команду реального времени для любого подключённого физического устройства. Техническая реализация скрывается за простым слоганом, который компания использует вовне: ваше тело — это интерфейс.

Архитектура: три слоя, четыре движка, один контур

Orchestra — это не отдельное устройство, а многоуровневая платформа, изначально спроектированная гибкой по датчикам и агностичной по исполнительным механизмам. Архитектура разделяется на три слоя восприятия и четыре координационных движка.

Сам Orchestra представляет собой портативный интеллектуальный хаб, работающий под управлением операционной системы, которая занимается слиянием сенсоров, выводом намерений, трансляцией команд и арбитражем безопасности. Референсная вычислительная платформа — NVIDIA Jetson Orin Nano Super, предоставляющая достаточно вычислительной мощности на устройстве, чтобы весь цикл управления оставался на граничных вычислениях, без зависимости от облака в критическом пути. Граничный инференс для этого применения безальтернативен. Сквозная задержка от считывания биосигнала до команды на исполнение удерживается ниже 100 миллисекунд — предел, в котором управление с обратной связью ощущается естественным, а не запаздывающим.

VisionLink отвечает за визуальное и пространственное восприятие. Камеры подают данные в модели зрения, которые идентифицируют объекты, оценивают расстояния и отслеживают контекст окружения. VisionLink спроектирован не как пассивный слой распознавания, а как генератор команд реального времени: его выходные данные напрямую поступают в ОС Orchestra для слияния с биосигналами.

Conductor — это конвейер биосигналов. Он принимает необработанные данные поверхностной электромиографии (sEMG) с наручного устройства, классифицирует временные паттерны в дискретные жесты или непрерывные управляющие сигналы и выдаёт исполнительные команды. Технически интересное свойство sEMG для этого сценария состоит в том, что сигнал появляется за 50–80 мс до того, как палец завершит соответствующий жест. В Wetour Robotics называют это свойство «предваряющим считыванием намерения» (pre-motion intent sensing), и именно оно позволяет Orchestra предвосхищать намерение пользователя, а не реагировать на него.

Поверх трёх слоёв восприятия ОС Orchestra запускает четыре координационных движка. Движок восприятия (Perception Engine) принимает и нормализует сырые потоки сенсоров. Движок намерений (Intent Engine) выполняет Spatial Intent Fusion между модальностями, выясняя, что пользователь пытается сделать с учётом того, где он находится, на что смотрит и что сигнализирует его рука. Движок оркестровки (Orchestration Engine) переводит намерение в специфичные для устройства последовательности команд для любого подключённого исполнительного механизма. Движок безопасности (Safety Engine) разрешает конфликтующие команды, соблюдает рабочие диапазоны и блокирует выполнение при нарушении условий безопасности времени исполнения.

О компромиссах честно

Ни одна система, соединяющая человеческое тело и цифровой мир, не является завершённой. Остаются три инженерные проблемы, и компания решает каждую осознанным компромиссом, не утверждая, что полностью их преодолела.

Стабильность базового сигнала sEMG при движении. У неподвижного пользователя непрерывное распознавание жестов по sEMG надёжно. Но как только пользователь идёт, карабкается или иным образом двигается, артефакты движения и смещение электродов ухудшают сигнал, что трудно полностью компенсировать. Вместо того чтобы обещать непрерывное управление в динамических условиях, Orchestra по умолчанию использует ограниченный набор надёжных дискретных жестов в сложной рабочей среде, а режимы непрерывного управления оставляет для контекстов, где соотношение сигнал/шум их поддерживает.
Миниатюризация граничных AI-вычислений. Выполнение цикла управления Orchestra целиком на границе требует реального инференса на устройстве, что исторически означало компромисс между вычислительной мощностью, временем автономной работы и форм-фактором. Подход Wetour Robotics — компактная несущая плата в паре с тепловым дизайном и аккумуляторным модулем, рассчитанным на ношение в течение всего дня. В результате хаб перемещается вместе с пользователем, а не привязывает его к столу, и выполняет полный цикл от восприятия до действия без выгрузки в облако.
Гетерогенность протоколов сторонних устройств. Сторона исполнительных устройств представляет собой фрагментированный ландшафт. Разные производители предлагают разные командные интерфейсы, коммуникационные стеки и соглашения по безопасности, и операционная система физического ИИ должна интегрироваться со всеми ними. Wetour Robotics использует слой AI-агента для адаптивного согласования соединений и трансляции протоколов, так что ОС Orchestra может получать данные от широкого спектра устройств, пропускать их через нейросетевые модели, выводящие человеческие намерения, и отправлять нужную команду по нужному протоколу на устройство на другом конце.

Почему это важно и как помогает всей отрасли

История вычислений — это история интерфейсных революций. Командные строки сменились графическими интерфейсами, те — сенсорными экранами, а затем — голосом. Каждый переход расширял круг тех, кто может участвовать в системе, и их возможности. Следующий переход не о новом экране или микрофоне. Он о том, чтобы рассматривать само человеческое тело как участника вычислительной сети, способного вносить намерения с той же скоростью и точностью, что и любой другой подключённый узел.

История вычислений — это история интерфейсных революций. Следующий переход — не новый экран или микрофон, а превращение человеческого тела в участника вычислительной сети.

Этот путь — не конкурент работам по гуманоидным роботам, базовым моделям для воплощённого ИИ и ловкой манипуляции. Это недостающее дополнение к этим работам. Самая сложная открытая проблема гуманоидных систем — данные: каждое естественное взаимодействие человека с физическим миром — потенциальный обучающий сигнал, и большинство таких взаимодействий сейчас невидимы для вычислительных систем. Когда больше людей становятся полноправными узлами в контуре, эти взаимодействия становятся наблюдаемыми, структурированными и в конечном счёте полезными для обучения следующего поколения воплощённого ИИ, включая разрабатываемых сегодня гуманоидных роботов.

Иными словами, возвращение человека в вычислительный контур — это не только улучшение интерфейсов для отдельных пользователей. Это создание тех самых естественных, полевых данных взаимодействия человека и машины, которые понадобятся более широкой экосистеме физического ИИ для дальнейшего развития. Сторона роботов и сторона людей — не два конкурирующих будущих, а две половины одного целого.

Именно это имеет в виду Wetour Robotics, говоря: ваше тело — это интерфейс.