Google DeepMind представил предварительную версию SIMA 2, следующего поколения универсального ИИ-агента, который сочетает языковые и рассудительные возможности модели Gemini от Google. Это позволяет агенту не просто выполнять команды, а понимать окружающую среду и взаимодействовать с ней.
Подобно многим разработкам DeepMind, таким как AlphaFold, первая версия SIMA обучалась на сотнях часов данных из видеоигр, чтобы освоить игру в различных 3D-играх по-человечески, включая те, на которых она не тренировалась. SIMA 1, представленная в марте 2024 года, могла выполнять простые инструкции в разнообразных виртуальных пространствах, но показывала всего 31% успеха в сложных заданиях по сравнению с 71% у людей.
«SIMA 2 представляет собой значительный прогресс по сравнению с SIMA 1», — отметил Джо Марино, старший научный сотрудник DeepMind, на брифинге для прессы. «Это более универсальный агент, способный справляться со сложными задачами в незнакомых окружениях. Кроме того, он обладает возможностью самоулучшения на основе собственного опыта, что приближает нас к созданию универсальных роботов и систем общего искусственного интеллекта».

SIMA 2 работает на базе модели Gemini 2.5 flash-lite. Под общим искусственным интеллектом DeepMind подразумевает систему, способную выполнять широкий спектр интеллектуальных задач, осваивать новые навыки и применять знания в разных областях.
Работа с так называемыми воплощенными агентами имеет ключевое значение для достижения общей интеллектуальности, считают исследователи DeepMind. Марино пояснил, что воплощенный агент взаимодействует с физическим или виртуальным миром через «тело» — воспринимая входные данные и совершая действия, подобно роботу или человеку, в то время как невоплощенный агент может, например, управлять календарем, делать заметки или запускать код.
Джейн Ванг, научный сотрудник DeepMind с опытом в нейронауках, сообщила, что SIMA 2 выходит далеко за рамки простого геймплея.
«Мы требуем от него не только распознавания происходящего, но и понимания запросов пользователя, а также способности реагировать здравым смыслом, что представляет собой серьезную сложность», — пояснила Ванг.
Благодаря интеграции Gemini SIMA 2 удвоил показатели предыдущей модели, объединив продвинутые языковые и логические способности Gemini с навыками воплощенного взаимодействия, полученными в ходе обучения.

Марино продемонстрировал SIMA 2 в игре «No Man’s Sky», где агент описал ландшафт — поверхность скалистой планеты — и спланировал дальнейшие действия, обнаружив и активировав сигнал бедствия. SIMA 2 также применяет Gemini для внутренних рассуждений. В другой игре, получив задание подойти к дому цвета спелого помидора, агент мысленно отметил, что спелые помидоры красные, и направился к красному дому.
Интеграция с Gemini позволяет SIMA 2 интерпретировать инструкции на основе эмодзи: «Дайте команду 🪓🌲, и агент срубит дерево», — объяснил Марино.
Марино также показал, как SIMA 2 ориентируется в новых фотореалистичных виртуальных мирах, сгенерированных моделью Genie от DeepMind. Агент точно определяет и взаимодействует с объектами, такими как скамейки, деревья и бабочки.

Gemini также способствует самоулучшению без большого объема человеческих данных, добавил Марино. Если SIMA 1 обучалась исключительно на геймплее людей, то SIMA 2 использует это как основу для начальной модели. В новом окружении агент обращается к другой модели Gemini для генерации заданий, а отдельная модель вознаграждений оценивает попытки. На основе этих самоСозданных опытов агент учится на ошибках, постепенно повышая эффективность и осваивая новые поведения методом проб и ошибок, под руководством ИИ-обратной связи вместо человеческой.
DeepMind рассматривает SIMA 2 как этап на пути к более универсальным роботам.
«Чтобы система выполняла задачи в реальном мире, как робот, ей нужны два компонента», — заявил Фредерик Бессе, старший инженер-исследователь DeepMind, на брифинге. «Во-первых, глубокое понимание реальности и необходимых действий, включая рассуждения».
Если попросить гуманоидного робота в доме проверить количество банок с фасолью в шкафу, система должна осознать понятия фасоли и шкафа, а также найти путь к месту. Бессе отметил, что SIMA 2 больше фокусируется на высокоуровневом поведении, чем на низкоуровневом управлении, таком как контроль суставов или колес.
Команда воздержалась от указания сроков внедрения SIMA 2 в физические роботизированные системы. Бессе сообщил, что недавно представленные DeepMind фундаментальные модели для робототехники — способные рассуждать о физическом мире и планировать многошаговые миссии — обучались отдельно и по-другому от SIMA.
Хотя график выпуска полной версии SIMA 2 тоже не раскрыт, Ванг отметила, что цель — продемонстрировать достижения DeepMind миру и выявить возможности для сотрудничества и применения.