Роботоведы когда-то ставили грандиозные цели, но создавали простые устройства. Они стремились повторить сложность человеческого тела, а в итоге годами совершенствовали манипуляторы для автозаводов. Мечтали о C-3PO, получали Roomba.
Настоящая мечта многих специалистов — робот из фантастики, способный передвигаться по миру, подстраиваться под разные условия и безопасно помогать людям. Такие машины могли бы поддерживать передвижение для маломобильных, бороться с одиночеством или брать на себя опасные задания. Для ориентированных на прибыль это означало бесконечный источник труда без зарплат. Однако череда неудач заставила Кремниевую долину осторожничать с подобными проектами.
Ситуация изменилась. Роботы еще не готовы полностью, зато инвестиции хлынули: в 2025 году в гуманоидных роботов вложили 6,1 миллиарда долларов — в четыре раза больше, чем в 2024-м.
Причина — прорыв в методах освоения взаимодействия с окружающим миром.
Представьте пару роботизированных рук дома только для складывания белья. Как их научить? Можно прописать инструкции: проверить ткань на разрыв, найти воротник рубашки, подвинуть захват к левому рукаву, поднять и сложить на точное расстояние. Повторить с правым. Если рубашка повернута — скорректировать. Если рукав перекручен — расправить. Правила быстро множатся, но полный набор мог бы дать стабильный результат. Так начиналась робототехника: предугадывать все варианты заранее.
Примерно с 2015 года ведущие лаборатории перешли к новому подходу: создать цифровую копию рук и одежды, награждать программу за удачное складывание и штрафовать за провал. Робот пробует разные приемы методом проб и ошибок, проходя миллионы циклов — подобно тому, как ИИ освоил игры.
Запуск ChatGPT в 2022 году подстегнул взлет. Большие языковые модели, обученные на огромных объемах текста, угадывают следующее слово в предложении. Адаптированные для роботов, они анализируют изображения, данные сенсоров и положения суставов, прогнозируя последующие действия — десятки команд двигателям в секунду.
Переход к моделям ИИ на больших данных эффективен для общения с людьми, перемещения или сложных операций. Его дополнили идеями вроде выпуска неидеальных роботов в реальную среду для сбора опыта. Роботоведы Кремниевой долины снова мыслят масштабно. Вот ключевые этапы этого пути.
Jibo
Передвижной социальный робот общался задолго до больших языковых моделей.
В 2014 году исследовательница MIT Синтия Бризил показала миру робота Jibo без рук, ног и лица — похожего на лампу. Идея — семейный компаньон — собрала 3,7 миллиона долларов на краудфандинге. Предзаказы стоили 749 долларов.

Ранний Jibo представлялся и танцевал для развлечения детей, но на большее не был способен. План — превратить его в полноценного ассистента для планирования, почты и чтения историй. Робот обрел поклонников, однако фирма прекратила работу в 2019-м.
Главший пробел — слабые разговорные навыки. Jibo соперничал с Siri от Apple и Alexa от Amazon, где все строилось на жестких сценариях: распознавание речи в текст, анализ запроса, выдача готовых фраз. Они очаровывали, но повторялись и казались механическими — что плохо для семейного социального устройства.
Сегодня генерация речи ИИ впечатляет и увлекает, множество стартапов пробуют воплотить это в железе — пока без прорыва.
Зато появился новый вызов: скриптовые диалоги не сходят с пути, а ИИ может. Некоторые игрушки с ИИ уже обсуждали со детьми спички и ножи.
Dactyl
Роботизированная рука, обученная в симуляции, справляется с непредсказуемостью реальности.
К 2018 году топовые лаборатории отказывались от скриптов в пользу проб и ошибок. OpenAI виртуально дрессировала руку Dactyl на моделях ладони и кубиков размером с ладонь. Задачи вроде «поверни кубик, чтобы красная грань с буквой O смотрела вверх».
Проблема: в симуляции робот мастер, а в реальности малейшие расхождения — цвета, эластичность резины в пальцах — все ломают.

Выход — рандомизация домена: миллионы симуляций с вариациями трения, освещения, оттенков. Это готовит к реальным условиям. Метод сработал для Dactyl, а через год рука освоила кубик Рубика — с 60% успеха на легких и 20% на сложных перемешиваниях.
Сегодня симуляции играют меньшую роль. OpenAI свернула робот-направление в 2021-м, но недавно возобновила — с акцентом на гуманоидов.
RT-2
Обучение на интернет-изображениях учит роботов воплощать слова в дела.
Около 2022 года робототехники Google 17 месяцев снимали видео: люди с контроллерами выполняли 700 задач — от чипсов до банок.
Цель — первые масштабные базовые модели для роботов, как языковые: текст в токены, на выходе команды. RT-1 принимала данные зрения, положения звеньев руки и инструкцию, переводя в движения. 97% знакомых задач — успех, 76% новых.

Год спустя RT-2 шагнула дальше: вместо робо-данных — общие фото из сети, как в визионно-языковых моделях. Робот стал понимать расположение предметов.
«Открылись новые возможности, — говорит Канишка Рао, ведущий робототехник Google DeepMind по обеим версиям. — Например, 'поставь банку Coke рядом с фото Тейлор Свифт'».
В 2025-м Google DeepMind объединила языковые модели с роботами глубже: Gemini Robotics лучше разбирает естественные команды.
RFM-1
Модель ИИ делает роботизированные руки похожими на коллег по работе.
В 2017-м инженеры OpenAI создали Covariant — не фантастических гуманоидов, а практичные руки для складов. Построив систему на базовых моделях а-ля Google, компания внедрила ее у Crate & Barrel и собирала данные.
К 2024-му вышла RFM-1: общайтесь как с напарником. Покажите рукавам с теннисными мячами — прикажите разложить по зонам. Робот может уточнить: какой присосок выбрать для хвата.
Эксперименты бывали, но Covariant запустила в масштабе. Камеры везде у клиентов, данные текут для дообучения.

Идеально не было. В демо марта 2024-го с кухонными предметами на «верни банан» рука хватала губку, яблоко и прочее, прежде чем преуспеть.
«Не понимает идею возврата, — объяснял сооснователь Питер Чен. — Пример, где данных пока мало».
Чен и Питер Аббел ушли в Amazon, который лицензирует RFM-1 (фирма не комментирует, но управляет около 1300 складов в США).
Digit
Компании проверяют этого гуманоида в боевых условиях.
Деньги идут в антропоморфных роботов — они вписываются в человеческие пространства без перестройки линий под огромные руки.
Сложно на практике: гуманоиды в складах — в тестовых зонах.

Но Digit от Agility уже трудится. Дизайн с открытыми сочленениями и нечеловеческой головой — чистая функциональность. Amazon, Toyota, GXO (логистика для Apple и Nike) ввели в строй — редкий случай, где гуманоид дает реальную экономию, а не шоу. Digit таскает, укладывает контейнеры.
До идеального помощника далеко: максимум 35 фунтов (16 кг), рост силы — тяжелее батарея, чаще зарядка. Стандарты требуют жестче безопасности для мобильных роботов рядом с людьми.
Digit доказывает: подходы к обучению разнообразны. Agility применяет симуляции как у OpenAI плюс Gemini от Google для адаптации к новым местам. Десятилетие опытов привело от малого к масштабным проектам.