XDOF привлёк $70 млн на сбор данных для обучения роботов

Стартап XDOF вышел из скрытого режима с финансированием $70 млн, чтобы решить проблему нехватки данных для обучения роботов. Компания строит инфраструктуру сбора и аннотирования данных и уже сотрудничает с 20 клиентами, включая ведущие ИИ-лаборатории. XDOF также представила датасет ABC — крупнейшую открытую подборку данных для роботов.

Две недели назад OpenAI сообщила о перезапуске робототехнической программы, закрытой в 2021 году, — это очередной сигнал, что крупнейшие лаборатории ИИ спешат научить машины действовать в физическом мире. Однако создание полноценных роботов требует данных для обучения, сопоставимых с теми, что использовались для языковых моделей, — но пока их нет.

Этот пробел порождает новый вид инфраструктурного бизнеса. В отличие от больших языковых моделей, обученных на гигантском объёме открытых текстов, роботам нужны данные, фиксирующие физическое взаимодействие, а таких данных почти нет. Видео с YouTube и материалы, снятые фрилансерами, имеют низкое качество и плохо соотносятся с реальным миром.

XDOF (произносится «экс-доф»), выходящий сегодня из «стелс»-режима, делает ставку на то, что главным узким местом ИИ станут не модели или чипы, а петля обратной связи по данным, необходимая для обучения роботов взаимодействию с физическим миром.

Компания планирует создать каналы данных, инструменты сбора и системы разметки, которые ведущие лаборатории и робототехнические фирмы не могут легко построить самостоятельно, и для этого привлекла $70 млн от инвесторов — Thrive Capital, Spark Capital, a16z, Lux и WndrCo. Сооснователь и CEO Филипп Ву сообщил, что в XDOF, насчитывающей около 60 сотрудников, уже работают с 20 клиентами, включая несколько передовых лабораторий ИИ, однако не раскрыл их названия.

«Все ведущие лаборатории стремятся развивать робототехнику, — сказал Ву. — Мы уже видели, к чему приводит отставание в гонке языковых моделей… никто не хочет опоздать с технологией, когда все считают физический ИИ следующим рубежом».

Ву сам столкнулся с этой проблемой, будучи аспирантом в Калифорнийском университете в Беркли. Он занимался тем, чтобы роботы могли осваивать навыки на больших массивах данных. Но была одна загвоздка.

«У нас не было крупномасштабных данных для работы, — рассказал он TechCrunch. — Возникла проблема курицы и яйца: сначала нужно собрать данные, а уже потом думать, как обучать фундаментальную модель для робототехники».

Ву и будущий сооснователь и технический директор XDOF Фред Шэньту работали над проектом GELLO — недорогой системой телеуправления, позволяющей человеку управлять роботизированной рукой для генерации обучающих данных. «В итоге эта работа стала очень влиятельной в области робототехники, потому что у многих были схожие потребности и ограничения, и многие начали использовать подобные устройства для сбора данных», — пояснил Ву.

Увидев рыночную возможность, Ву, Шэньту и третий сооснователь — операционный директор Немо Джин — запустили XDOF в октябре 2024 года, чтобы создать экосистему данных для компаний, разрабатывающих робототехнические модели. Понимая, что одно лишь предоставление данных может завести в тупик, компания также фокусируется на очистке данных, инструментах и аннотации — создавая самоподдерживающуюся петлю обратной связи для обучения роботов.

В качестве отправной точки компания совместно с лабораторией ИИ Калифорнийского университета в Беркли выпускает, как утверждается, крупнейшую из когда-либо собранных подборок качественных данных для обучения роботов — под названием ABC. Она включает 130 000 траекторий манипуляций роботов, 300 часов симуляции и 100 часов оценок. Такой объём предобученных данных прежде никогда не был доступен академическому сообществу.

«В языковых моделях, генерации изображений и других областях мы видели: когда выпускаются модели и данные, сообщество достигает результатов, которых никто не ожидал», — поделился Дэвид Макаллистер, аспирант из Беркли, помогавший организовать релиз.

Команда уже использовала эти данные для обучения роботов выполнению стандартных задач, таких как складывание футболок, расплющивание коробок или загрузка AirPods в футляры.

Бесконечные степени свободы

Компания планирует работать на трёх уровнях пирамиды данных. Самый ценный уровень — данные телеуправления, собранные непосредственно на том роботе, который внедряется; далее — телеуправляемые роботы, собирающие более общие данные, как в GELLO; и наконец, «эгоцентрические» данные, полученные от людей, выполняющих повседневные задачи, — для этого XDOF планирует создать собственные носимые сенсоры.

«Выбор камеры повлияет на качество данных, а это скажется на эффективности алгоритма отслеживания рук, — предупреждает Ву. — Если не продумать аппаратную часть с самого начала, в собранных данных могут проявиться неожиданные проблемы».

Компания собирается нанимать и обучать целые армии операторов телеуправления и сбора эгоцентрических данных по всему миру — трудоёмкая модель, которая наводит на очевидный вопрос: почему крупные лаборатории не занимаются этим производством данных самостоятельно?

«Нужен склад площадью в сотни тысяч квадратных футов с сотнями роботов, — объясняет Ву. — Нужно обслуживать этих роботов, калибровать их физические параметры и должным образом обучать операторов».

Такое развёртывание требует концентрации, капитала и операционного масштаба, которые большинство лабораторий ИИ предпочли бы передать на аутсорсинг, — именно на это и делает ставку XDOF.

Название XDOF — игра слов от робототехнического термина «степени свободы» (degrees of freedom), который описывает количество независимых движений, доступных роботу. Человеческая рука от плеча до запястья имеет семь степеней свободы. Последний робот компании Figure AI, занимающейся человекоподобными роботами, имеет 30 степеней. Буква X в названии отражает амбицию: «Произвольные степени свободы, бесконечные степени свободы», — говорит Ву.

XDOF привлёк $70 млн на сбор данных для обучения роботов

Бесконечные степени свободы

Горячее

Seedance 2.5 от ByteDance: ИИ-видео до 30 секунд без склеек

Adobe добавила ИИ-агентов в Photoshop Premiere

Subquadratic утверждает, что решила ключевую проблему больших языковых моделей

Всё больше людей узнают новости от ИИ-чатботов, но доверие остаётся низким

Microsoft и Chevron строят гигантский газовый дата-центр

Сейчас в тренде