Гонконгская компания DAIMON Robotics недавно представила Daimon-Infinity — самый масштабный омнимодальный датасет для воплощенного ИИ. Он включает данные тактильного восприятия высокого разрешения и охватывает задачи от сортировки белья в быту до сборки деталей на производстве. Над проектом работали партнеры из Китая и других стран, в том числе Google DeepMind, Северо-Западный университет и Национальный университет Сингапура.
DAIMON Robotics существует два с половиной года и прославилась передовыми тактильными сенсорами. Главный продукт — монохромный сенсор на базе зрения, который вмещает свыше 110 тысяч чувствительных элементов в модуль размером с кончик пальца. Благодаря такой технологии и сети сбора данных вне лабораторий, способной производить миллионы часов записей ежегодно, фирма создает крупные датасеты манипуляций с огромным объемом тактильной информации. Чтобы ускорить применение воплощенного ИИ на практике, компания выложила в открытый доступ 10 тысяч часов данных.

Стратегию определяет сооснователь и главный ученый DAIMON профессор Майкл Ю Ванг. Он защитил докторскую в Карнеги-Меллон под руководством Мэтта Мейсона, специалиста по манипуляциям, а потом создал Робототехнический институт в Гонконгском университете науки и технологий. Как IEEE Fellow и экс-главный редактор IEEE Transactions on Automation Science and Engineering, он трудится в области около сорока лет. Цель — устранить слабость роботов в осязании, где доминирует модель Vision-Language-Action (VLA). Команда Ванга ввела Vision-Tactile-Language-Action (VTLA), приравняв тактильные данные к визуальным.

Инициатива с датасетом
Недавно DAIMON Robotics совместно с ведущими вузами и фирмами выпустила самый полный датасет манипуляций для роботов. Почему датасет вышел именно сейчас, а не позже, когда акцент на продуктах? Как это повлияет на сферу воплощенного интеллекта?
DAIMON Robotics работает два с половиной года. Фирма сосредоточилась на высокодетальных мультимодальных тактильных устройствах, фиксирующих взаимодействие кончиков пальцев робота с предметами. Сенсоры стали надежными и востребованными в академических кругах, исследованиях и среди лидеров в гуманоидных роботах.
По мере прогресса воплощенного ИИ роль данных становится ключевой. Дефицит данных — главный тормоз в обучении роботов, особенно отсутствие записей физических контактов, без которых машины не справляются в реальности. Качество, надежность и цена данных волнуют всех — от ученых до бизнеса.
Здесь DAIMON лидирует. Технология на базе зрения фиксирует мультимодальные тактильные данные: не только силы контакта, но деформацию, скольжение, трение, свойства материалов и текстуры поверхностей — полную картину взаимодействия. С опытом в слиянии модальностей создана цепочка обработки, объединяющая тактильные сигналы с видео, траекториями движений и языком, готовя данные для моделей машинного обучения.
Видя пробел в отрасли, DAIMON считает масштабный сбор данных своим преимуществом и вкладом в сообщество.
Открывая датасет, компания дает качественное "топливо" для воплощенного ИИ, ускоряя запуск универсальных моделей роботов в дело.
В робототехнике конкуренция жесткая, многие копят данные. Как DAIMON собрала такой объемный кросс-платформенный датасет с тактильными данными на базе зрения?
В фирме есть внутренняя команда по расширению: от железа до собственной крупной модели. Несмотря на скромные размеры, базовая тактильная технология и новый подход к сбору позволяют генерировать гигантские датасеты.
Подход — расширение услуг. Построена крупнейшая в мире распределенная сеть сбора вне лабораторий. Вместо фабрик данных — легкая масштабируемая система для реальных условий, дающая миллионы часов в год.
“Чтобы подтолкнуть воплощенный ИИ, мы открыли 10 тысяч часов датасета для всех.” — Проф. Майкл Ю Ванг, DAIMON Robotics
Датасет создавали с институтами по миру. Какие у них роли, и как данные помогут их работам и продуктам?
Помимо китайских команд, партнеры — группы из Северо-Западного университета, Национального университета Сингапура, Google DeepMind и China Mobile. Их участие подтверждает ценность тактильных данных.
Некоторые партнеры уже имеют модели и добавляют осязание. Размещая устройства DAIMON в исследованиях, на производстве и в практике, они дают прикладные данные. Партнеры используют их для моделей под свои задачи. Плюс 10 тысяч часов открыты для сообщества, чтобы продвинуть всю область.

От VLA к VTLA: зачем нужно осязание
Сейчас в роботах популярен Vision-Language-Action (VLA), но вы предлагаете Vision-Tactile-Language-Action (VTLA). Почему добавить тактильное восприятие? Что оно дает роботам, и какие операции провалятся без него?
Годы работы над универсальными роботами для ловких манипуляций — не просто хватом, а использованием инструментов с передачей сил и движений — показывают применение в домах и на сборке.
Тактильная информация необходима для обратной связи о контактах, чтобы направлять руки и пальцы. Без нее роботы ограничены: не находят предметы в темноте, роняют хрупкое без детекции скольжения, ломают из-за неточного контроля сил. VLA нужно доработать тактильными данными — так родилась VTLA.
Плюс сенсор на базе зрения: фиксирует деформацию поверхности пальца в последовательности изображений, из которых выводит силы и состояния. Это вписывается в визуальную основу VLA. Тактильные данные в формате картинок легко интегрировать, получая VTLA. Преимущество — пиксельное разрешение, подходящее для любых моделей.

Технология: монохромное тактильное восприятие на базе зрения
Вы годами развивали сенсоры на базе зрения и создали первую монохромную технологию. Почему такой выбор?
Изучая сенсоры, команда определила требования: имитировать кожу под пальцами человека. Исследования физиологии показывают, как мы распознаем предметы, материалы, распределение сил и позицию. Такое на роботах сильно поможет.
Существующие варианты — от трехцветных vision-сенсоров до простых — объединили в надежное инженерное решение без лишней сложности, с балансом цены, надежности и чувствительности. Это монохромная технология на базе зрения — инженерия на базе науки, где база уже есть. С ростом понимания нужды в тактильных данных все пойдет вперед.
Год назад DAIMON запустила многомерный высокодетальный высокоскоростной сенсор. Чем он лучше традиционных, и какие отрасли изменятся?
Ключ — плотность измерения сил и деформации на пальце. У нас максимум sensing units. Динамика: частота, полоса — быстрая реакция на изменения в реальном времени. Плюс инженерия: надежность, отсутствие дрейфа, долговечность мягкой поверхности, устойчивость к помехам.
Все больше ученых и фирм берут технологию. Она поднимет отрасль. Пример: гуманоид в маленьком магазине с тесными полками. Нужны тонкие пальцы для хватов в узкие щели — двухчелюстные не проходят. Тактильное осязание обязательно.

От университета к стартапу
После 40 лет в академии — создание института в HKUST, звание IEEE Fellow, редакторство IEEE TASE — что подтолкнуло к DAIMON?
Путь долгий. Докторская в Карнеги-Меллон: locomotion у Марка Рейберта (основатель Boston Dynamics), манипуляции у Мэтта Мейсона. Ловкие руки развивали десятилетиями.
Прогресс тормозил, особенно руки. Недавно locomotion взлетел, руки пошли вперед. Есть пространство для манипуляций как у людей. В HKUST студенты и постдоки хлынули в область — решили ускорить с капиталом и талантами.
Постдок Дуань Цзянхуа увидел рынок и ценность vision-тактильных сенсоров. Вместе запустили DAIMON — успех. Сообщество растет в Китае, Японии, Корее, США, Европе.
Бизнес-модель и стратегия
Какова модель DAIMON сейчас, и как датасет вписывается в коммерцию?
Начали с устройств — тактильных сенсоров для рук. Но ясно: нужна цепочка — железо, данные, фреймворки для моделей и развертывания.
Стратегия "3D": Devices, Data, Deployment. Устройства для сбора, экосистемы и партнерских применений. Это дает реальные тактильные данные и замкнутую проверку. Станет основой. Стартапы идут вертикально, потом специализируются или интегрируются.
Воплощенные навыки и момент сходимости
Вы ввели "воплощенные навыки" для гуманоидов помимо ИИ-мозга. Что дало идею? Какие способности откроет? За два года эволюции моделей и железа изменился ли подход?
Мы на сходимости: электроника, мехатроника шагнули за 20 лет. Роботы электрические, без гидравлики, с высокой тягой и bandwidth. С интеллектом — гуманоиды для неструктурированных сред с автономией.
“Наша цель — роботы с надежными манипуляциями как партнеры людей.” — Проф. Майкл Ю Ванг, DAIMON Robotics
ИИ пришел вовремя. Масштабные вложения в LLM обобщили в world models для физического ИИ. Хотим воплощения в реальности.
Фокус ясен: человекоподобные для дома — сфера с пользой, если безопасно, надежно, дешево.
Путь к внедрению в реальность
Роботы круто демоят, но до практики далеко. Что запустит массовость? Какие сценарии первыми?
До универсальных роботов далеко, но в нишах возможно. Как с автономками: robo-taxi нет, а мобильные роботы в отелях — да. В Китае все большие гостиницы используют доставщиков без рук: берут еду в лобби, едут в номер с лифтом.
Отели и рестораны — шаблон для гуманоидов в аптеках и магазинах. Скоро полное покрытие, потом другие. Роботы проникнут поэтапно, неся пользу.
В итоге роботы обретут крепкие манипуляции и станут надежными помощниками, интегрируясь в дома и жизнь на благо людей.