MineWorld: Открытая ИИ-модель мира Minecraft

*Игровой процесс Mineworld, взятый из репозитория GitHub [4], лицензированный по MIT License.*

Одной из игр, которые сопровождали меня в детстве, безусловно, была Minecraft. До сих пор я вспоминаю, как после школы собирались с друзьями и придумывали, какую необычную конструкцию из редстоуна мы построим дальше. Поэтому, когда в октябре 2024 года вышла Oasis — автоматически генерируемая открытая модель мира на базе ИИ, — я был поражен! Создание реактивных моделей мира наконец-то стало достижимым с использованием современных технологий, и вскоре мы, возможно, получим полностью сгенерированные ИИ-среды.

Модели мира [3], представленные в 2018 году Дэвидом Ха и соавторами, представляют собой модели машинного обучения, способные симулировать и взаимодействовать с полностью виртуальной средой. Их основным недостатком всегда была вычислительная неэффективность, из-за которой реальное взаимодействие с моделью в режиме реального времени становилось серьезной проблемой.

В этой статье мы познакомимся с первой открытой моделью мира для Minecraft, разработанной Microsoft, — Mineworld [1], которая обеспечивает быстрые взаимодействия в реальном времени и высокий уровень управляемости, при этом расходуя меньше ресурсов по сравнению с закрытым аналогом Oasis [2]. Основной вклад заключается в трех ключевых аспектах:

Mineworld: модель мира в реальном времени с высоким уровнем управляемости и интерактивностью, причем она открытая.
Алгоритм параллельного декодирования, ускоряющий процесс генерации и повышающий количество кадров в секунду.
Новый метрический показатель оценки, предназначенный для измерения управляемости модели мира.

Ссылка на статью: https://arxiv.org/abs/2504.08388
Код: https://github.com/microsoft/mineworld

Mineworld в упрощенном изложении

Чтобы точно описать Mineworld и ее методологию, мы разделим этот раздел на три подраздела:

Формулировка проблемы: здесь мы определяем задачу и устанавливаем базовые правила для обучения и вывода.
Архитектура модели: обзор моделей, используемых для генерации токенов и выходных изображений.
Параллельное декодирование: анализ того, как авторы утроили количество генерируемых кадров в секунду с помощью нового алгоритма диагонального декодирования [8].

Формулировка проблемы

Модель мира получает два типа входных данных: видеозаписи игрового процесса и действия игрока, выполняемые во время игры. Каждый из этих типов требует особого подхода к токенизации для правильного использования.

Для клипа видео Minecraft 𝑥, содержащего 𝑛 состояний/кадров, токенизация изображений может быть сформулирована следующим образом:

$$x=(x_{1},…,x_{n})$$

$$t= (t_{1},…,t_{c},t_{c+1},…,t_{2c},t_{2c+1},…,t_{N})$$

Каждый кадр 𝑥(i) состоит из c патчей, и каждый патч представлен токеном t(j). Таким образом, один кадр 𝑥(i) можно описать как множество квантованных токенов {t(1),t(2),…,t(c)}, где каждый t(j) ∈ t соответствует отдельному патчу, захватывающему свою группу пикселей.

Поскольку каждый кадр содержит c токенов, общее количество токенов для одного видеоклипа равно N = n·c.

**Таблица 1**. Семь различных классов для 11 возможных действий. Группировка взята из [1]

Помимо токенизации видео, необходимо токенизировать действия игрока. Эти токены должны отражать вариации, такие как изменения перспективы камеры, ввод с клавиатуры и движения мыши. Для этого используются 11 различных токенов, охватывающих весь спектр входных характеристик:

7 токенов для семи эксклюзивных групп действий. Связанные действия объединяются в один класс (группировка действий показана в Таблице 1).
2 токена для кодирования углов камеры в соответствии с [5].
2 токена, фиксирующих начало и завершение последовательности действий: и .

В результате получается плоская последовательность, объединяющая все состояния игры и действия, которая выглядит так:

$$t= (t_{i*c+1},…,t_{(i+1)*c},[aBOS],t_{1}^{a_{i}},…,t_{9}^{a_{i}},[aEOS])$$

Она начинается с списка квантованных идентификаторов для каждого патча, от t(1) до t(N) (как в предыдущем уравнении), за которым следует токен начала последовательности , 9 токенов действий и, наконец, токен конца последовательности .

Архитектура модели

В этой работе применялись две основные модели: векторно-квантованный вариационный автоэнкодер (VQ-VAE) [6] и декодер трансформера на базе архитектуры LLaMA [7].

Хотя традиционные вариационные автоэнкодеры (VAE) когда-то были основным выбором для генерации изображений (особенно до распространения диффузионных моделей), они имели ограничения. VAE плохо справлялись с дискретными данными (такими как слова или токены) или ситуациями, требующими высокой реалистичности и точности. VQ-VAE решают эти проблемы, переходя от непрерывного латентного пространства к дискретному, что делает их более структурированными и подходящими для последующих задач.

В статье VQ-VAE использовался как визуальный токенизатор, преобразующий каждый кадр изображения 𝑥 в его квантованное представление ID t. Входные изображения имели размер 224×384, каждое из которых делилось на 16 патчей размером 14×24. Это дает последовательность из 336 дискретных токенов, описывающих визуальную информацию одного кадра.

С другой стороны, декодер трансформера LLaMA применялся для предсказания каждого токена на основе всех предыдущих.

$$f_{\theta}(t)=\prod_{i=1}^{N} p\left( t_{i}|t_{< i} \right) $$

Функция трансформера обрабатывает не только токены на основе визуальных данных, но и токены действий. Это позволяет моделировать связи между двумя модальностями, делая модель пригодной как для роли модели мира (как задумано в статье), так и для роли модели политики, способной предсказывать действия на основе предшествующих токенов.

Параллельное декодирование

**Рисунок 2**. Сравнение генерации в порядке растрового сканирования (слева) и параллельного диагонального декодирования (справа). Обратите внимание, что параллельное декодирование заняло 2,5 секунды на рендеринг, в то время как растровое — около 6,8 секунды. Визуализация создана автором статьи, вдохновлена [1].

Авторы определили четкие критерии для игры в нормальных условиях: она должна генерировать достаточное количество кадров в секунду, чтобы игрок мог комфортно выполнять среднее количество действий в минуту (APM). По их анализу, средний игрок совершает 150 APM. Чтобы удовлетворить такие требования, среда должна работать как минимум на 2–3 кадрах в секунду.

Для выполнения этого условия авторы отказались от стандартной генерации в порядке растрового сканирования (от левого к правому, сверху вниз, по одному токену) и перешли к комбинированному диагональному декодированию.

Диагональное декодирование предполагает одновременную обработку нескольких патчей изображения за один проход. Например, если патч x(i,j) обрабатывается на шаге t, то патчи x(i+1,j) и x(i,j+1) обрабатываются на шаге t+1. Этот подход использует пространственные и временные связи между последовательными кадрами, ускоряя генерацию. Подробнее это видно на Рисунке 2.

Однако переход от последовательной к параллельной генерации вызывает некоторое снижение производительности. Это связано с несоответствием между процессами обучения и вывода (поскольку параллельная генерация требуется на выводе) и последовательной природой маски причинного внимания в LLaMA. Авторы решают эту проблему, дообучая модель с модифицированной маской внимания, адаптированной под стратегию параллельного декодирования.

Ключевые результаты и анализ

Для оценки Mineworld использовался датасет VPT [5], состоящий из записей игровых клипов, связанных с соответствующими действиями. VPT включает 10 млн видеоклипов, каждый из которых содержит 16 кадров. Как упоминалось ранее, каждый кадр (224×384 пикселей) разделяется на 336 патчей, каждый из которых представлен отдельным токеном t(i). Вместе с 11 токенами действий это дает до 347 токенов на кадр, что в сумме составляет 55 млрд токенов для всего датасета.

Количественные результаты

Mineworld сравнивалась с Oasis по двум категориям метрик: качеству визуализации и управляемости.

Для точного измерения управляемости авторы предложили новый подход — обучение модели обратной динамики (IDM) [5], которая предсказывает действие между двумя последовательными кадрами. Модель достигла точности 90,6%, а затем ее протестировали, предоставив 20 игровых клипов с предсказанными IDM действиями пяти опытным игрокам. После оценки каждого действия от 1 до 5 и расчета коэффициента корреляции Пирсона получили p-значение 0,56, что указывает на значительную положительную корреляцию.

Поскольку модель обратной динамики дает надежные результаты, ее можно использовать для расчета метрик, таких как точность, F1-оценка или L1-потеря, рассматривая входное действие как эталонное, а предсказанное IDM — как действие, произведенное моделью мира. Из-за различий в типах действий оценка делится на две категории:

Классификация дискретных действий: точность, полнота и F1-оценка для 7 классов действий, описанных на Рисунке 1.
Движение камеры: разделяя вращение вокруг осей X и Y на 11 дискретных бинов, рассчитывается L1-оценка на основе предсказаний IDM.

**Таблица 2.** Результаты сравнения трех настроек Mineworld и Oasis. Сравнение по кадрам в секунду (FPS), точности (P), полноте (R), F1-оценке (F1), L1-оценке (L1), расстоянию Фреше видео (FVD), сходству воспринимаемых патчей изображений (LPIPS), индексу структурного сходства (SSIM) и пиковому отношению сигнал/шум. Результаты из [1]

Анализируя результаты в Таблице 2, видно, что Mineworld, имея всего 300 млн параметров, превосходит Oasis по всем метрикам — как связанным с управляемостью, так и с качеством визуализации. Самый интересный показатель — кадры в секунду, где Mineworld генерирует более чем вдвое больше кадров, обеспечивая плавный интерактивный опыт, способный обработать 354 APM, что значительно превышает жесткий лимит в 150 APM.

Масштабирование Mineworld до 700 млн или 1,2 млрд параметров улучшает качество изображений, но приводит к замедлению, с падением FPS до 3,01. Это снижение скорости может негативно сказаться на пользовательском опыте, хотя все еще поддерживает playable 180 APM.

Качественные результаты

**Рисунок 3.** Три различных случая игрового процесса. Изображение из [1]

Дополнительный качественный анализ оценивал способность Mineworld генерировать мелкие детали, следовать инструкциям по действиям и понимать/регенерировать контекстную информацию. Исходное состояние игры предоставлялось вместе с предопределенным списком действий для выполнения моделью.

Рассматривая Рисунок 3, можно сделать три вывода:

Верхняя панель: при изображении игрока в доме и инструкциях двигаться к двери и открыть ее модель успешно сгенерировала желаемую последовательность действий.
Средняя панель: в сценарии рубки дерева модель продемонстрировала умение создавать детализированные визуальные элементы, правильно отобразив анимацию разрушения дерева.
Нижняя панель: случай высокой точности и осведомленности о контексте. При повороте камеры влево и вправо дом выходит из виду, а затем возвращается полностью с теми же деталями.

Эти три примера демонстрируют возможности Mineworld не только в создании высококачественного контента игрового процесса, но и в точном следовании действиям и последовательной регенерации контекстной информации — функция, с которой Oasis справляется хуже.

**Рисунок 4**. Дополнительные случаи для оценки управляемости, где при разных входных действиях генерируются различные последовательности игрового процесса. Изображение из [1]

Во втором наборе результатов авторы сосредоточились на оценке управляемости, предоставляя одну и ту же входную сцену вместе с тремя разными наборами действий. Модель успешно создала три различных выходных последовательности, каждая из которых привела к полностью другому конечному состоянию.

Заключение

В этой статье мы рассмотрели MineWorld — первую открытую модель мира для Minecraft. Мы обсудили подход к токенизации каждого кадра/состояния в несколько токенов и их комбинацию с 11 дополнительными токенами, представляющими дискретные действия и движение камеры. Также мы подчеркнули инновационное использование модели обратной динамики для вычисления метрик управляемости, а также новый алгоритм параллельного декодирования, который утраивает скорость вывода, достигая в среднем 3 кадров в секунду.

В будущем было бы полезно расширить время тестирования за пределы окна в 16 кадров. Такой длительный период позволит точно проверить способность Mineworld регенерировать конкретные объекты — вызов, который, на мой взгляд, останется серьезным препятствием для широкого применения подобных моделей.

MineWorld: Открытая модель мира для Minecraft

Mineworld в упрощенном изложении

Формулировка проблемы

Архитектура модели

Параллельное декодирование

Ключевые результаты и анализ

Количественные результаты

Качественные результаты

Заключение

Горячее

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Claude Cowork уязвим к краже файлов

Знакомство со Stickerbox: ИИ для детских стикеров

Топ-7 планов для вайб-кодинга

Топ-5 API-провайдеров открытых ИИ-моделей

Сейчас в тренде