Microsoft Mirage: пространственная память для видеогенерации

Microsoft Research представила Mirage — модель мира для видео с латентной пространственной памятью. Она обходит попиксельную память, ускоряя генерацию до 10,57 раз и снижая потребление памяти в 55 раз. Mirage сохраняет стабильность сцены при длительных перемещениях камеры, но пока не работает с движущимися объектами.

Mirage — это новая видеомодель мира, которая обходит трудоёмкий путь через попиксельную память. Такой подход ускоряет генерацию и сохраняет пространственную структуру сцены стабильной даже при длительных перемещениях камеры. Разработку вели исследователи нескольких университетов совместно с Microsoft Research.

Видеомодели мира преобразуют стартовый кадр и траекторию камеры в правдоподобную движущуюся картинку — это удобно для симуляций и как симуляторы мира. Но без памяти даже мощные генераторы со временем теряют ориентацию в пространстве. Пройденный угол комнаты выглядит иначе, когда камера возвращается: мебель смещается, текстуры меняются.

Системы вроде Voyager, WonderWorld и Spatia пытаются решить проблему с помощью трёхмерного облака точек, в которое непрерывно поступают данные о цвете. На каждом шаге генерации приходится рендерить это облако и переводить результат обратно во внутреннее пространство признаков модели. В новой статье Microsoft это называют двойным узким местом: расходуется много вычислительных ресурсов, а при каждом проходе через пиксельное пространство часть информации теряется.

Mirage действует иначе. Вместо хранения видимых цветных точек модель сохраняет внутренние признаки изображений, с которыми уже работает диффузионная модель. Каждый признак получает координаты в трёхмерном пространстве и становится записью в пространственной памяти.

Сравнение двух конвейеров обработки для видеомоделей мира. Сверху: память на основе облака точек RGB с циклом рендеринга и кодирования. Снизу: латентная пространственная память Mirage, построенная и считываемая напрямую в латентном пространстве. | Автор изображения: Wang et al.

Чтобы сгенерировать новый ракурс, модель проецирует это хранилище прямо на целевую камеру и передаёт результат генератору, пропуская этап рендеринга облака точек и повторного кодирования. Авторы утверждают, что такой подход также радикально снижает потребление памяти, поскольку данные находятся в компактном внутреннем разрешении модели, а не в полном размере изображения.

Как память растёт с каждым шагом

Mirage строит видео сегментами, заполняя пространственную память из начального кадра. Для каждого последующего сегмента система извлекает из памяти нужные данные, генерирует новые кадры и записывает их содержимое обратно в кэш. Память постоянно расширяется по мере работы.

Конвейер Mirage, в котором вариационный автоэнкодер и оценка глубины строят латентный кэш из первого кадра. Каждый фрагмент генерации считывается из него через readout и обновляется через write, а латентное трёхмерное представление растёт со временем от t0 до tN. — Mirage заполняет латентный кэш из стартового изображения, затем считывает и записывает его фрагмент за фрагментом, сохраняя статичное содержимое сцены неизменным на всём протяжении. | Автор изображения: Wang et al.

Специальный фильтр не даёт системе запутаться: он удаляет движущиеся объекты и небо перед записью, так что в долговременную память попадает только стабильная геометрия. Исследователи взяли за основу открытую видеомодель Wan2.2 от Alibaba, добавили небольшой подключаемый модуль, который обучает модель использовать новую память, а затем дообучили всё решение с помощью LoRA-адаптеров.

Быстрее и легче конкурентов

На бенчмарке WorldScore Mirage обходит ближайшего соперника Spatia, который всё ещё хранит память в виде цветных точек, и оставляет далеко позади обычные видеогенераторы вроде Wan2.1 и CogVideoX. Модель отлично удерживает пространственную структуру сцены и обеспечивает согласованность поверхностей на множестве кадров.

Mirage также лидирует по двум из трёх метрик на наборе данных RealEstate10K в тесте с замкнутой траекторией. В нём камера возвращается в исходную точку — это жёсткая стресс-проверка, потому что любая крошечная ошибка накапливается на всем пути.

Два столбчатых графика для пяти фрагментов генерации. Слева: среднее время генерации на кадр. Справа: пиковое потребление видеопамяти кэша. Mirage остаётся стабильно низким по обоим показателям, тогда как Spatia, VMem и Gen3C резко возрастают. — Mirage сохраняет время вычислений и объём памяти почти неизменными на протяжении всего запуска, в то время как конкурирующие модели требуют больше ресурсов с каждым фрагментом. | Автор изображения: Wang et al.

Эффективность — сильнейшая сторона Mirage. Память на основе цвета плохо масштабируется на длинных последовательностях и постоянно требует больше видеопамяти. У Mirage же затраты на кадр почти не меняются после первого сегмента. Исследователи зафиксировали суммарный выигрыш до 10,57 раз по скорости генерации и до 55 раз по экономии памяти по сравнению с системами на основе цвета.

Авторы честно указывают и на ограничение. Движущиеся объекты теряются на границах сегментов, потому что их геометрии нельзя доверять, и фильтр намеренно отбрасывает их. Насыщенные сцены выигрывают от пространственной памяти меньше, чем спокойные интерьеры. Команда называет хранение динамического контента очевидной следующей задачей.

Подробнее о Mirage можно узнать на странице проекта. Microsoft также ведёт репозиторий на GitHub для латентной пространственной памяти.

Видеомодели мира — одна из самых горячих тем в ИИ-видео сегодня. Модели вроде Veo в основном создают одиночные внутренне согласованные клипы, тогда как модели мира пытаются сделать сцену навигационной и сохранить её стабильность во времени. Google Deepmind недавно продемонстрировала это с Genie 3, которая генерирует интерактивные окружения в реальном времени и удерживает их несколько минут. На конференции I/O Google также представила Gemini Omni как модель мира и потенциального преемника своей модели преобразования текста в видео Veo.

Microsoft Mirage: пространственная память для видеогенерации

Как память растёт с каждым шагом

Быстрее и легче конкурентов

Горячее

Anthropic открыла офис в Сеуле и новые партнерства в Корее

Seedance 2.5 от ByteDance: ИИ-видео до 30 секунд без склеек

Adobe добавила ИИ-агентов в Photoshop Premiere

Личный ИИ-ассистент на Python: опыт создания с GPT-4o

Pinterest показала ИИ-приложение Ask Pinterest для покупок

Сейчас в тренде