Mirage — это новая видеомодель мира, которая обходит трудоёмкий путь через попиксельную память. Такой подход ускоряет генерацию и сохраняет пространственную структуру сцены стабильной даже при длительных перемещениях камеры. Разработку вели исследователи нескольких университетов совместно с Microsoft Research.
Видеомодели мира преобразуют стартовый кадр и траекторию камеры в правдоподобную движущуюся картинку — это удобно для симуляций и как симуляторы мира. Но без памяти даже мощные генераторы со временем теряют ориентацию в пространстве. Пройденный угол комнаты выглядит иначе, когда камера возвращается: мебель смещается, текстуры меняются.
Системы вроде Voyager, WonderWorld и Spatia пытаются решить проблему с помощью трёхмерного облака точек, в которое непрерывно поступают данные о цвете. На каждом шаге генерации приходится рендерить это облако и переводить результат обратно во внутреннее пространство признаков модели. В новой статье Microsoft это называют двойным узким местом: расходуется много вычислительных ресурсов, а при каждом проходе через пиксельное пространство часть информации теряется.
Mirage действует иначе. Вместо хранения видимых цветных точек модель сохраняет внутренние признаки изображений, с которыми уже работает диффузионная модель. Каждый признак получает координаты в трёхмерном пространстве и становится записью в пространственной памяти.

Чтобы сгенерировать новый ракурс, модель проецирует это хранилище прямо на целевую камеру и передаёт результат генератору, пропуская этап рендеринга облака точек и повторного кодирования. Авторы утверждают, что такой подход также радикально снижает потребление памяти, поскольку данные находятся в компактном внутреннем разрешении модели, а не в полном размере изображения.
Как память растёт с каждым шагом
Mirage строит видео сегментами, заполняя пространственную память из начального кадра. Для каждого последующего сегмента система извлекает из памяти нужные данные, генерирует новые кадры и записывает их содержимое обратно в кэш. Память постоянно расширяется по мере работы.

Специальный фильтр не даёт системе запутаться: он удаляет движущиеся объекты и небо перед записью, так что в долговременную память попадает только стабильная геометрия. Исследователи взяли за основу открытую видеомодель Wan2.2 от Alibaba, добавили небольшой подключаемый модуль, который обучает модель использовать новую память, а затем дообучили всё решение с помощью LoRA-адаптеров.
Быстрее и легче конкурентов
На бенчмарке WorldScore Mirage обходит ближайшего соперника Spatia, который всё ещё хранит память в виде цветных точек, и оставляет далеко позади обычные видеогенераторы вроде Wan2.1 и CogVideoX. Модель отлично удерживает пространственную структуру сцены и обеспечивает согласованность поверхностей на множестве кадров.
Mirage также лидирует по двум из трёх метрик на наборе данных RealEstate10K в тесте с замкнутой траекторией. В нём камера возвращается в исходную точку — это жёсткая стресс-проверка, потому что любая крошечная ошибка накапливается на всем пути.

Эффективность — сильнейшая сторона Mirage. Память на основе цвета плохо масштабируется на длинных последовательностях и постоянно требует больше видеопамяти. У Mirage же затраты на кадр почти не меняются после первого сегмента. Исследователи зафиксировали суммарный выигрыш до 10,57 раз по скорости генерации и до 55 раз по экономии памяти по сравнению с системами на основе цвета.
Авторы честно указывают и на ограничение. Движущиеся объекты теряются на границах сегментов, потому что их геометрии нельзя доверять, и фильтр намеренно отбрасывает их. Насыщенные сцены выигрывают от пространственной памяти меньше, чем спокойные интерьеры. Команда называет хранение динамического контента очевидной следующей задачей.
Подробнее о Mirage можно узнать на странице проекта. Microsoft также ведёт репозиторий на GitHub для латентной пространственной памяти.
Видеомодели мира — одна из самых горячих тем в ИИ-видео сегодня. Модели вроде Veo в основном создают одиночные внутренне согласованные клипы, тогда как модели мира пытаются сделать сцену навигационной и сохранить её стабильность во времени. Google Deepmind недавно продемонстрировала это с Genie 3, которая генерирует интерактивные окружения в реальном времени и удерживает их несколько минут. На конференции I/O Google также представила Gemini Omni как модель мира и потенциального преемника своей модели преобразования текста в видео Veo.