Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

Google DeepMind обучает агентов с помощью Gemini в Goat Simulator 3

Google DeepMind разрабатывает агента SIMA 2 с интеграцией Gemini для выполнения сложных задач в видеоиграх вроде Goat Simulator 3. Этот ИИ обучается на записях человеческих игр и может самостоятельно решать проблемы, общаясь с пользователями. В перспективе такие агенты предназначены для управления роботами в реальном мире, хотя эксперты отмечают ограничения и скептицизм относительно переноса навыков.

14 ноября 2025 г.
4 мин
1

Разработчики утверждают, что SIMA 2 способна выполнять разнообразные более сложные задания в виртуальных мирах, самостоятельно определять способы решения конкретных проблем и общаться с пользователями. Кроме того, она может совершенствоваться, повторяя более трудные задачи и обучаясь на основе проб и ошибок.

«Видеоигры уже давно служат мощным стимулом для исследований в области агентов», — отметил Джо Марино, научный сотрудник Google DeepMind, на пресс-конференции на этой неделе. Он подчеркнул, что даже простое действие в игре, такое как зажигание фонаря, может требовать нескольких этапов: «Это действительно сложный комплекс задач, которые необходимо решить для продвижения вперед».

Конечная цель — создание агентов следующего поколения, способных следовать указаниям и выполнять открытые задания в средах, более сложных, чем веб-браузер. В перспективе Google DeepMind планирует применять таких агентов для управления реальными роботами. Марино заявил, что навыки, приобретенные SIMA 2, такие как перемещение по окружению, использование инструментов и совместная работа с людьми для решения задач, представляют собой ключевые элементы для будущих роботизированных помощников.

В отличие от предыдущих разработок по игровым агентам, таким как AlphaZero, которая победила грандмастера го в 2016 году, или AlphaStar, которая превзошла 99,8% игроков в рейтинге среди людей в видеоигре StarCraft 2 в 2019 году, концепция SIMA заключается в обучении агента играть в открытую игру без заранее заданных целей. Вместо этого агент учится выполнять инструкции, данные ему людьми.

Люди управляют SIMA 2 через текстовый чат, голосом или рисуя на экране игры. Агент анализирует пиксели видеоигры кадр за кадром и определяет необходимые действия для выполнения заданий.

Подобно своей предшественнице, SIMA 2 обучалась на записях людей, играющих в восемь коммерческих видеоигр, включая No Man’s Sky и Goat Simulator 3, а также в трех виртуальных мирах, созданных компанией. Агент научился соотносить нажатия клавиш и движения мыши с действиями.

Интеграция с Gemini, по словам исследователей, значительно улучшает способность SIMA 2 следовать инструкциям (задавая вопросы и предоставляя обновления по ходу) и самостоятельно разбираться в выполнении более сложных заданий.

Google DeepMind протестировала агента в ранее не виденных им окружениях. В одном ряду экспериментов исследователи попросили Genie 3, последнюю версию модели мира компании, генерировать среды с нуля, и поместили SIMA 2 в них. Они обнаружили, что агент способен ориентироваться и выполнять инструкции в таких условиях.

Исследователи также задействовали Gemini для создания новых заданий для SIMA 2. Если агент сначала терпел неудачу, Gemini генерировала подсказки, которые SIMA 2 учитывала при повторной попытке. Многократное повторение задачи таким образом позволяло SIMA 2 прогрессировать через пробы и ошибки до успеха, отметил Марино.

Становись лучше

SIMA 2 пока остается экспериментом. Агент испытывает трудности с сложными задачами, требующими нескольких шагов и больше времени на выполнение. Кроме того, он запоминает только последние взаимодействия (чтобы сделать SIMA 2 более отзывчивой, команда убрала долгосрочную память). Он также далек от уровня людей в использовании мыши и клавиатуры для взаимодействия с виртуальным миром.

Джулиан Тогелиус, исследователь ИИ в Нью-Йоркском университете, специализирующийся на креативности и видеоиграх, считает это интересным достижением. Предыдущие попытки обучить единую систему играть в несколько игр не увенчались большим успехом, говорит он. Обучение моделей управлению несколькими играми только по визуальному вводу с экрана — непростая задача: «Игра в реальном времени исключительно на основе визуального ввода — это 'сложный режим'», — поясняет он.

В частности, Тогелиус выделяет GATO, предыдущую систему от Google DeepMind, которая — несмотря на шумиху вокруг нее на момент выхода — не могла переносить навыки на значительное количество виртуальных сред.

Тем не менее, он открыт к идее, что SIMA 2 может привести к улучшению роботов. «Реальный мир одновременно сложнее и проще видеоигр», — говорит он. Сложнее, потому что нельзя просто нажать A, чтобы открыть дверь. В то же время робот в реальном мире точно знает, на что способен и на что нет его механизм в любой момент. В видеоиграх правила в каждом виртуальном мире могут различаться.

Другие эксперты более скептичны. Мэттью Гуздал, исследователь ИИ в Университете Альберты, не слишком удивлен способностью SIMA 2 играть в множество разных видеоигр. Он отмечает, что большинство игр используют очень похожие схемы управления клавиатурой и мышью: изучи одну — и освоишь все. «Если поставить перед ней игру с необычным вводом, я сомневаюсь, что она сможет выступить хорошо», — говорит он.

Гуздал также ставит под сомнение, насколько навыки SIMA 2 действительно перенесутся на роботов. «Понимать визуалы с камер в реальном мире гораздо сложнее, чем в играх, которые созданы с легко разбираемыми изображениями для человеческих игроков», — подчеркивает он.

Впрочем, Марино и его коллеги надеются продолжить работу с Genie 3, чтобы агент мог улучшаться в бесконечном виртуальном тренировочном зале, где Genie создает миры для обучения SIMA через пробы и ошибки под руководством обратной связи от Gemini. «Мы лишь слегка коснулись того, что возможно», — сказал он на пресс-конференции.