В свежем исследовании представлен Scalable Instructable Multiworld Agent (SIMA), способный выполнять задания в разнообразных игровых мирах по естественным языковым командам.
Видеоиграм отводится важная роль в проверке систем искусственного интеллекта. Подобно реальности, они предлагают насыщенные среды для обучения с динамичными, оперативными условиями и постоянно меняющимися целями.
Начиная с начальных экспериментов с играми Atari и заканчивая системой AlphaStar, которая достигла уровня гроссмейстера в StarCraft II, Google DeepMind накопил значительный опыт в области ИИ и игр.
Сейчас достигается новый этап — переход от специализированных решений для отдельных игр к универсальному ИИ-агенту, управляемому инструкциями.
В техническом отчете описан SIMA — Scalable Instructable Multiworld Agent, универсальный ИИ-агент для трехмерных виртуальных пространств. Совместно с разработчиками игр агент обучался на множестве видеоигр. Это первое достижение, когда агент демонстрирует понимание широкого спектра игровых миров и выполнение задач по языковым указаниям, подобно человеку.
Цель работы не в завоевании высоких баллов в играх. Освоение даже одной игры — серьезное испытание для ИИ, но способность следовать инструкциям в разных игровых контекстах открывает путь к полезным агентам для любых окружений. Исследование иллюстрирует, как возможности продвинутых моделей ИИ преобразуются в практические действия через языковой интерфейс. Ожидается, что SIMA и аналогичные проекты помогут глубже осмыслить, как сделать ИИ-системы более полезными, используя игры как тестовые полигоны.
Обучение на основе видеоиграх
Чтобы погрузить SIMA в разнообразные окружения, были установлены связи с разработчиками игр. Совместная работа с восемью студиями позволила обучать и проверять SIMA на девяти видеоиграх, включая No Man’s Sky от Hello Games и Teardown от Tuxedo Labs. Каждая игра из набора SIMA представляет уникальный интерактивный мир с набором навыков — от базового перемещения и работы с меню до добычи ресурсов, пилотирования космического корабля или изготовления шлема.
Кроме того, задействованы четыре исследовательские среды, в том числе новая, созданная с Unity — Construction Lab, где агенты конструируют скульптуры из блоков, проверяя манипуляции с объектами и интуитивное восприятие физики.
Обучаясь в различных игровых мирах, SIMA усваивает связь между языком и поведением в игре. Первоначальный метод включал запись пары игроков: один наблюдал и давал указания другому. Также игроки свободно действовали, а затем пересматривали сессии, формулируя инструкции, которые привели бы к их действиям.
SIMA: универсальный ИИ-агент
SIMA — это ИИ-агент, воспринимающий и анализирующий разнообразные среды, а затем выполняющий действия для достижения заданной цели по инструкции. Он состоит из модели для точного сопоставления изображений и языка, а также видео-модели, прогнозирующей развитие событий на экране. Эти модели дообучены на данных из трехмерных сред портфеля SIMA.
Агент не требует доступа к исходному коду игры или специальным API. Ему достаточно изображений экрана и простых языковых указаний от пользователя. SIMA управляет главным персонажем через клавиатуру и мышь, что соответствует человеческому интерфейсу и позволяет взаимодействовать с любыми виртуальными пространствами.
Текущая версия SIMA тестируется на 600 базовых навыках: навигация (например, "поверни налево"), взаимодействие с объектами ("поднимись по лестнице") и использование меню ("открой карту"). Обучение ориентировано на простые задания, завершаемые за примерно 10 секунд.
В перспективе агенты должны справляться с задачами, требующими стратегического планирования и подзадач, вроде "Найди ресурсы и возведи лагерь". Это ключевая задача для ИИ в целом: крупные языковые модели владеют знаниями о мире и генерацией планов, но пока не могут действовать самостоятельно.
Генерализация между играми и дальше
Демонстрируется, что агент, обученный на множестве игр, превосходит специалиста по одной. В тестах SIMA, подготовленный на девяти трехмерных играх из портфеля, значительно опередил агентов, обученных только на отдельных тайтлах. Более того, агент, не видевший одну игру в обучении, показал результаты близкие к специализированному на ней, в среднем. Эта способность работать в новых средах подчеркивает генерализацию SIMA за пределы тренировочных данных. Хотя это обнадеживающий старт, для достижения человеческого уровня в знакомых и незнакомых играх нужны дополнительные исследования.
Результаты подтверждают зависимость производительности SIMA от языка. В эксперименте без языкового обучения и инструкций агент действует адекватно, но бесцельно — например, собирает ресурсы вместо следования указанному пути.
Развитие исследований ИИ-агентов
Результаты SIMA указывают на перспективы создания новой волны универсальных, управляемых языком ИИ-агентов. Это начальный этап, и планируется расширение SIMA на большее количество сред обучения с интеграцией мощных моделей.
Чем больше миров для тренировки, тем выше ожидания по универсальности и адаптивности SIMA. С продвинутыми моделями улучшится понимание сложных языковых инструкций и выполнение многозадачных целей.
В итоге исследование направлено на создание общих ИИ-систем и агентов, способных безопасно понимать и выполнять широкий спектр задач, полезных людям в онлайн- и реальном мире.