Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

MineWorld: Открытая модель мира для Minecraft

MineWorld — это первая открытая модель мира для Minecraft, разработанная Microsoft, обеспечивающая реальное взаимодействие с высокой управляемостью и низким потреблением ресурсов. Модель использует токенизацию видео и действий, параллельное декодирование для ускорения генерации и новую метрику оценки на базе обратной динамики. По сравнению с Oasis, MineWorld показывает лучшие результаты по качеству и скорости, открывая путь к интерактивным ИИ-средам.

15 октября 2025 г.
12 мин
7
Игровой процесс Mineworld, взятый из репозитория GitHub [4], лицензированный по MIT License.

Одной из игр, которые сопровождали меня в детстве, безусловно, была Minecraft. До сих пор я вспоминаю, как после школы собирались с друзьями и придумывали, какую необычную конструкцию из редстоуна мы построим дальше. Поэтому, когда в октябре 2024 года вышла Oasis — автоматически генерируемая открытая модель мира на базе ИИ, — я был поражен! Создание реактивных моделей мира наконец-то стало достижимым с использованием современных технологий, и вскоре мы, возможно, получим полностью сгенерированные ИИ-среды.

Модели мира [3], представленные в 2018 году Дэвидом Ха и соавторами, представляют собой модели машинного обучения, способные симулировать и взаимодействовать с полностью виртуальной средой. Их основным недостатком всегда была вычислительная неэффективность, из-за которой реальное взаимодействие с моделью в режиме реального времени становилось серьезной проблемой.

В этой статье мы познакомимся с первой открытой моделью мира для Minecraft, разработанной Microsoft, — Mineworld [1], которая обеспечивает быстрые взаимодействия в реальном времени и высокий уровень управляемости, при этом расходуя меньше ресурсов по сравнению с закрытым аналогом Oasis [2]. Основной вклад заключается в трех ключевых аспектах:

  1. Mineworld: модель мира в реальном времени с высоким уровнем управляемости и интерактивностью, причем она открытая.
  2. Алгоритм параллельного декодирования, ускоряющий процесс генерации и повышающий количество кадров в секунду.
  3. Новый метрический показатель оценки, предназначенный для измерения управляемости модели мира.

Ссылка на статью: https://arxiv.org/abs/2504.08388

Код: https://github.com/microsoft/mineworld


Mineworld в упрощенном изложении

Чтобы точно описать Mineworld и ее методологию, мы разделим этот раздел на три подраздела:

  • Формулировка проблемы: здесь мы определяем задачу и устанавливаем базовые правила для обучения и вывода.
  • Архитектура модели: обзор моделей, используемых для генерации токенов и выходных изображений.
  • Параллельное декодирование: анализ того, как авторы утроили количество генерируемых кадров в секунду с помощью нового алгоритма диагонального декодирования [8].

Формулировка проблемы

Модель мира получает два типа входных данных: видеозаписи игрового процесса и действия игрока, выполняемые во время игры. Каждый из этих типов требует особого подхода к токенизации для правильного использования.

Для клипа видео Minecraft 𝑥, содержащего 𝑛 состояний/кадров, токенизация изображений может быть сформулирована следующим образом:

$$x=(x_{1},…,x_{n})$$

$$t= (t_{1},…,t_{c},t_{c+1},…,t_{2c},t_{2c+1},…,t_{N})$$

Каждый кадр 𝑥(i) состоит из c патчей, и каждый патч представлен токеном t(j). Таким образом, один кадр 𝑥(i) можно описать как множество квантованных токенов {t(1),t(2),…,t(c)}, где каждый t(j) ∈ t соответствует отдельному патчу, захватывающему свою группу пикселей.

Поскольку каждый кадр содержит c токенов, общее количество токенов для одного видеоклипа равно N = n·c.

Таблица 1. Семь различных классов для 11 возможных действий. Группировка взята из [1]

Помимо токенизации видео, необходимо токенизировать действия игрока. Эти токены должны отражать вариации, такие как изменения перспективы камеры, ввод с клавиатуры и движения мыши. Для этого используются 11 различных токенов, охватывающих весь спектр входных характеристик:

  • 7 токенов для семи эксклюзивных групп действий. Связанные действия объединяются в один класс (группировка действий показана в Таблице 1).
  • 2 токена для кодирования углов камеры в соответствии с [5].
  • 2 токена, фиксирующих начало и завершение последовательности действий: и .

В результате получается плоская последовательность, объединяющая все состояния игры и действия, которая выглядит так:

$$t= (t_{i*c+1},…,t_{(i+1)*c},[aBOS],t_{1}^{a_{i}},…,t_{9}^{a_{i}},[aEOS])$$

Она начинается с списка квантованных идентификаторов для каждого патча, от t(1) до t(N) (как в предыдущем уравнении), за которым следует токен начала последовательности , 9 токенов действий и, наконец, токен конца последовательности .

Архитектура модели

В этой работе применялись две основные модели: векторно-квантованный вариационный автоэнкодер (VQ-VAE) [6] и декодер трансформера на базе архитектуры LLaMA [7].

Хотя традиционные вариационные автоэнкодеры (VAE) когда-то были основным выбором для генерации изображений (особенно до распространения диффузионных моделей), они имели ограничения. VAE плохо справлялись с дискретными данными (такими как слова или токены) или ситуациями, требующими высокой реалистичности и точности. VQ-VAE решают эти проблемы, переходя от непрерывного латентного пространства к дискретному, что делает их более структурированными и подходящими для последующих задач.

В статье VQ-VAE использовался как визуальный токенизатор, преобразующий каждый кадр изображения 𝑥 в его квантованное представление ID t. Входные изображения имели размер 224×384, каждое из которых делилось на 16 патчей размером 14×24. Это дает последовательность из 336 дискретных токенов, описывающих визуальную информацию одного кадра.

С другой стороны, декодер трансформера LLaMA применялся для предсказания каждого токена на основе всех предыдущих.

$$f_{\theta}(t)=\prod_{i=1}^{N} p\left( t_{i}|t_{< i} \right) $$

Функция трансформера обрабатывает не только токены на основе визуальных данных, но и токены действий. Это позволяет моделировать связи между двумя модальностями, делая модель пригодной как для роли модели мира (как задумано в статье), так и для роли модели политики, способной предсказывать действия на основе предшествующих токенов.

Параллельное декодирование

Рисунок 2. Сравнение генерации в порядке растрового сканирования (слева) и параллельного диагонального декодирования (справа). Обратите внимание, что параллельное декодирование заняло 2,5 секунды на рендеринг, в то время как растровое — около 6,8 секунды. Визуализация создана автором статьи, вдохновлена [1].

Авторы определили четкие критерии для игры в нормальных условиях: она должна генерировать достаточное количество кадров в секунду, чтобы игрок мог комфортно выполнять среднее количество действий в минуту (APM). По их анализу, средний игрок совершает 150 APM. Чтобы удовлетворить такие требования, среда должна работать как минимум на 2–3 кадрах в секунду.

Для выполнения этого условия авторы отказались от стандартной генерации в порядке растрового сканирования (от левого к правому, сверху вниз, по одному токену) и перешли к комбинированному диагональному декодированию.

Диагональное декодирование предполагает одновременную обработку нескольких патчей изображения за один проход. Например, если патч x(i,j) обрабатывается на шаге t, то патчи x(i+1,j) и x(i,j+1) обрабатываются на шаге t+1. Этот подход использует пространственные и временные связи между последовательными кадрами, ускоряя генерацию. Подробнее это видно на Рисунке 2.

Однако переход от последовательной к параллельной генерации вызывает некоторое снижение производительности. Это связано с несоответствием между процессами обучения и вывода (поскольку параллельная генерация требуется на выводе) и последовательной природой маски причинного внимания в LLaMA. Авторы решают эту проблему, дообучая модель с модифицированной маской внимания, адаптированной под стратегию параллельного декодирования.


Ключевые результаты и анализ

Для оценки Mineworld использовался датасет VPT [5], состоящий из записей игровых клипов, связанных с соответствующими действиями. VPT включает 10 млн видеоклипов, каждый из которых содержит 16 кадров. Как упоминалось ранее, каждый кадр (224×384 пикселей) разделяется на 336 патчей, каждый из которых представлен отдельным токеном t(i). Вместе с 11 токенами действий это дает до 347 токенов на кадр, что в сумме составляет 55 млрд токенов для всего датасета.

Количественные результаты

Mineworld сравнивалась с Oasis по двум категориям метрик: качеству визуализации и управляемости.

Для точного измерения управляемости авторы предложили новый подход — обучение модели обратной динамики (IDM) [5], которая предсказывает действие между двумя последовательными кадрами. Модель достигла точности 90,6%, а затем ее протестировали, предоставив 20 игровых клипов с предсказанными IDM действиями пяти опытным игрокам. После оценки каждого действия от 1 до 5 и расчета коэффициента корреляции Пирсона получили p-значение 0,56, что указывает на значительную положительную корреляцию.

Поскольку модель обратной динамики дает надежные результаты, ее можно использовать для расчета метрик, таких как точность, F1-оценка или L1-потеря, рассматривая входное действие как эталонное, а предсказанное IDM — как действие, произведенное моделью мира. Из-за различий в типах действий оценка делится на две категории:

  1. Классификация дискретных действий: точность, полнота и F1-оценка для 7 классов действий, описанных на Рисунке 1.
  2. Движение камеры: разделяя вращение вокруг осей X и Y на 11 дискретных бинов, рассчитывается L1-оценка на основе предсказаний IDM.
Таблица 2. Результаты сравнения трех настроек Mineworld и Oasis. Сравнение по кадрам в секунду (FPS), точности (P), полноте (R), F1-оценке (F1), L1-оценке (L1), расстоянию Фреше видео (FVD), сходству воспринимаемых патчей изображений (LPIPS), индексу структурного сходства (SSIM) и пиковому отношению сигнал/шум. Результаты из [1]

Анализируя результаты в Таблице 2, видно, что Mineworld, имея всего 300 млн параметров, превосходит Oasis по всем метрикам — как связанным с управляемостью, так и с качеством визуализации. Самый интересный показатель — кадры в секунду, где Mineworld генерирует более чем вдвое больше кадров, обеспечивая плавный интерактивный опыт, способный обработать 354 APM, что значительно превышает жесткий лимит в 150 APM.

Масштабирование Mineworld до 700 млн или 1,2 млрд параметров улучшает качество изображений, но приводит к замедлению, с падением FPS до 3,01. Это снижение скорости может негативно сказаться на пользовательском опыте, хотя все еще поддерживает playable 180 APM.

Качественные результаты

Рисунок 3. Три различных случая игрового процесса. Изображение из [1]

Дополнительный качественный анализ оценивал способность Mineworld генерировать мелкие детали, следовать инструкциям по действиям и понимать/регенерировать контекстную информацию. Исходное состояние игры предоставлялось вместе с предопределенным списком действий для выполнения моделью.

Рассматривая Рисунок 3, можно сделать три вывода:

  • Верхняя панель: при изображении игрока в доме и инструкциях двигаться к двери и открыть ее модель успешно сгенерировала желаемую последовательность действий.
  • Средняя панель: в сценарии рубки дерева модель продемонстрировала умение создавать детализированные визуальные элементы, правильно отобразив анимацию разрушения дерева.
  • Нижняя панель: случай высокой точности и осведомленности о контексте. При повороте камеры влево и вправо дом выходит из виду, а затем возвращается полностью с теми же деталями.

Эти три примера демонстрируют возможности Mineworld не только в создании высококачественного контента игрового процесса, но и в точном следовании действиям и последовательной регенерации контекстной информации — функция, с которой Oasis справляется хуже.

Рисунок 4. Дополнительные случаи для оценки управляемости, где при разных входных действиях генерируются различные последовательности игрового процесса. Изображение из [1]

Во втором наборе результатов авторы сосредоточились на оценке управляемости, предоставляя одну и ту же входную сцену вместе с тремя разными наборами действий. Модель успешно создала три различных выходных последовательности, каждая из которых привела к полностью другому конечному состоянию.


Заключение

В этой статье мы рассмотрели MineWorld — первую открытую модель мира для Minecraft. Мы обсудили подход к токенизации каждого кадра/состояния в несколько токенов и их комбинацию с 11 дополнительными токенами, представляющими дискретные действия и движение камеры. Также мы подчеркнули инновационное использование модели обратной динамики для вычисления метрик управляемости, а также новый алгоритм параллельного декодирования, который утраивает скорость вывода, достигая в среднем 3 кадров в секунду.

В будущем было бы полезно расширить время тестирования за пределы окна в 16 кадров. Такой длительный период позволит точно проверить способность Mineworld регенерировать конкретные объекты — вызов, который, на мой взгляд, останется серьезным препятствием для широкого применения подобных моделей.