Открытый исходный код начинает учить роботов думать

От «железа» к мышлению: новый рубеж робототехники

Когда группа исследователей начала выпускать открытое аппаратное обеспечение для роботов, целое поколение инженеров получило в подарок годы продуктивной работы. Теперь настал черёд более сложной задачи — научить машины рассуждать, принимать решения и действовать осмысленно. И эту область тоже начинают открывать для всех.

Перемены пока на ранней стадии, но за последние пару лет такие компании, как Hugging Face, Nvidia и Alibaba, сделали серьёзные ставки на открытую робототехнику. Они выкладывают в общий доступ инструменты и модели, которые отвечают за интеллектуальную работу высокого уровня — планирование, логику, принятие решений. Движение open source, ускорившее прогресс в других сферах ИИ, теперь помогает делать роботов умнее.

Если эти попытки увенчаются успехом, порог входа в создание дееспособного робота может рухнуть так же стремительно, как в своё время рухнул порог разработки приложений на базе искусственного интеллекта.

Мир, который построил ROS

Открытое программное обеспечение для роботов существует с середины девяностых. Зарождалось оно в виде отдельных проектов вроде пакета Inter-Process Communication из Университета Карнеги — Меллона и проекта Player в начале двухтысячных. Однако эти инструменты часто были привязаны к конкретным лабораториям, и область оставалась раздробленной. Ситуацию перевернула Robot Operating System, или ROS, дебютировавшая в 2007 году.

Объединив в себе набор удобных утилит и притянув всё больше пользователей, ROS стал стандартом де-факто. Во многом история открытой робототехники начинается именно оттуда. Несмотря на название, ROS — вовсе не операционная система в привычном понимании. Это программный фреймворк, надстроенный поверх Linux. Он берёт на себя базовые робототехнические задачи: пересылку данных между компонентами, общение с «железом», построение карт, планирование маршрутов, а также предоставляет средства разработки вроде логирования и визуализации.

До появления ROS каждая робототехническая команда писала эту инфраструктуру с нуля. Нередко у лаборатории уходило год или два лишь на то, чтобы добраться до действительно интересующего её исследования. Брайан Герки, участвовавший в создании ROS в середине двухтысячных, признаётся: его привлёк проект потому, что открытый код уже изменил мир — практически весь интернет построен именно на нём.

«Я — создатель инструментов, и мне нравится делиться всем как можно более открыто. Именно так наши разработки приносят максимальную пользу», — рассказывает Герки, председатель совета директоров Open Robotics, а ныне технический директор Intrinsic (подразделение робототехники и ИИ в составе Google).

Пока ROS развивался, сообщество искусственного интеллекта в целом пришло к той же модели: открытое распространение исследований, моделей и данных. В результате прогресс в этой сфере ускорился сильнее, чем кто-либо мог предположить. И теперь часть тех же прорывов приходит в робототехнику.

Открытый ИИ для машин, которые должны думать

Компьютерное зрение, некогда считавшееся крайне непростой проблемой, за несколько лет совершило колоссальный скачок, отмечает Спенсер Хуан, директор по продуктам для робототехники в Nvidia. То, что раньше требовало глубоких специальных знаний, сегодня реализуется в несколько строк кода. Инструменты симуляции достигли такого уровня точности, что стали действительно полезны для обучения; доступ к оснащению, для которого раньше нужна была специализированная лаборатория, сейчас широко открыт — во многом благодаря открытому коду.

«Чтобы войти в робототехнику, теперь не нужна докторская степень», — говорит Хуан.

Результат — значительно более широкий круг людей, способных внести свой вклад. Сама область уже не выглядит узкой дисциплиной; она всё больше напоминает платформу, на которой может строить каждый.

Nvidia создала открытый робототехнический стек, охватывающий весь цикл разработки. Мировые модели Cosmos генерируют синтетические данные для тренировки и симулируют физические среды. Модели GR00T наделяют роботов способностью осмысливать и выполнять сложные задачи. А фреймворки линейки Isaac занимаются оркестровкой, связывая тренировку, симуляцию и развёртывание в единое целое. Как поясняет Хуан, вовсе не обязательно — да и, скорее всего, не стоит — каждому тренировать роботов с чистого листа.

«Если вы поставите барьер на этапе предварительного обучения, сфера попросту не будет расти. Мы должны предлагать высококачественную, самую современную предобученную модель, которую любой может взять и дообучить под собственные задачи», — считает он.

Все открытые модели Nvidia размещены на Hugging Face, платформе для открытых ИИ-решений, ставшей пространством по умолчанию для обмена моделями и наборами данных. Сама Hugging Face в мае 2024 года запустила LeRobot — комьюнити-площадку для ИИ в робототехнике. После запуска количество робототехнических датасетов на платформе выросло с 1 145 (на конец 2024-го) до более чем 58 тысяч сегодня — теперь это крупнейшая категория наборов данных на хабе.

Компания также шагнула в «железо», приобретя производителя роботов Pollen Robotics. Как объясняет гендиректор Hugging Face Клеман Деланж, покупка вызвана пониманием, что одного программного обеспечения недостаточно. Задача, как и в случае с софтом, — привлечь больше людей.

Кто поддерживает LeRobot и почему это важно

Среди контрибьюторов LeRobot — крупнейшие игроки индустрии, университетские лаборатории и энтузиасты, создающие роботов в свободное от основной работы время. Например, Alibaba ранее в этом году представила RynnBrain — открытую фундаментальную модель для физического ИИ. По утверждению компании, в бенчмарках она превосходит сопоставимые разработки Google и Nvidia.

Такое разнообразие проектов, по мнению Деланжа, принципиально значимо. «Речь не об одной модели, одном наборе данных или железе, — говорит он. — Это множество скромных вкладов, частью которых может стать каждый».

Коммерческие стимулы затуманивают картину

Ставки, по словам Деланжа, выше, чем одно лишь удобство. Мир, в котором роботов в домах контролируют только несколько проприетарных систем, — пугающая перспектива.

«Иметь дома робота, которого вы толком не понимаете и не контролируете, а заправляют всем несколько человек из Кремниевой долины, — страшноватая мысль. Открытый код предлагает альтернативный путь», — делится он.

Однако реализовать эту альтернативу непросто. Открытость сегодняшнего дня заметно отличается от того, что породило ROS. Тот проект вырос в основном из усилий учёных, объединявших свои наработки без коммерческой заинтересованности в конечном результате. Крупнейшие же современные контрибьюторы — компании с совершенно очевидными деловыми мотивами: им выгодно, чтобы больше людей строило свои решения на их платформах.

Это не обязательно плохо, замечает Билл Смарт, профессор Университета штата Орегон и участник раннего сообщества открытой робототехники. Однако о существовании таких стимулов стоит помнить. Его также беспокоит обратная сторона снизившегося порога входа. Исследователи, приходящие из ИИ без робототехнического бэкграунда, иногда решают задачи, которые в этой области давно закрыты. Новичок может потратить неделю на обучение нейросети, чтобы переместить манипулятор из одной точки в другую, не зная, что та же задача решается несколькими строчками кода с применением приёмов, отработанных десятилетия назад. Стимулы не всегда указывают в ту же сторону, куда направлен прогресс.

Надежда на расширяющееся сообщество

И всё же Смарт не теряет оптимизма. Каковы бы ни были мотивы открытости, эффект от неё реален. В сферу приходит больше людей, чем когда-либо прежде. Инструменты действительно стали удобнее. А сообщество — шире и разнообразнее всего, что существовало на заре ROS.

«Теперь кто угодно может заставить робота двигаться, — говорит он. — Как человека, давно работающего в технологиях, меня это одновременно и радует, и печалит: ведь я больше не уникален».

Как открытый код учит роботов думать