Naver создала Seoul World Model на Street View данных

Южнокорейский интернет-гигант Naver разработал видео-мировую модель, опирающуюся на реальную геометрию города из более миллиона своих панорам Street View. Эта модель переносится на другие города без дополнительной настройки.

Ранние видео-мировые модели создают правдоподобные, но полностью вымышленные окружения. Всё за пределами начального кадра — невидимые улицы, дальние здания — просто придумывается. Специалисты из Naver и Naver Cloud пошли другим путём: их Seoul World Model (SWM) привязывает генерацию видео к настоящей геометрии и виду реального города.

Два примера из Seoul World Model: слева карта Сеула с маршрутом, справа сгенерированные кадры видео по этому маршруту. Текстовые запросы добавляют горящие машины и Годзиллу между небоскрёбами в реальную уличную сцену. Маршруты длиной 1,8 и 1,2 километра. — SWM следует реальным маршрутам по Сеулу и создаёт видео, которые можно менять текстовыми запросами — добавлять горящие машины или ставить Годзиллу между небоскрёбами. | Image: Naver

Как указано в исследовательской работе, это первая мировая модель, привязанная к конкретному физическому месту. Naver часто называют «гуглом Южной Кореи» — компания ведёт ведущую поисковую систему страны и сервис Naver Map с панорамами улиц, похожими на Google Maps. Модель берёт данные прямо из этого хранилища.

Пользователи задают географические координаты, желаемое движение камеры и текстовый запрос. Тогда модель ищет в базе 1,2 миллиона панорамных изображений из Naver Map, находит ближайшие Street View и использует их как ориентиры для пошаговой генерации видео.

Реальные данные с улиц порождают три основные трудности

Работа с настоящими изображениями рождает задачи, которых нет у чисто синтетических моделей. Главная: панорамы Street View — это статичные снимки. Машины и прохожие, попавшие в кадр во время съёмки, не связаны с динамичной сценой, которую нужно создать. Без корректировки модель просто скопирует эти случайные объекты из референсов в видео.

Три колонки с двумя уличными сценами из Сеула. Слева референсные Street View с машинами, мотоциклами и людьми. В центре тепловые карты полной модели, фокусирующиеся в основном на фасадах зданий и разметке дорог. Справа карты без кросс-временной пары, где внимание падает на транспорт и пешеходов. — С механизмом кросс-временной пары (центр) модель акцентирует здания и улицы. Без него (справа) цепляется за машины и людей, ошибочно копируя их из референсов. | Image: Naver

Разработчики устранили это с помощью «кросс-временной пары»: на обучении они специально сочетали референсные снимки и целевые последовательности из разных времён съёмки. Так модель учится отличать постоянные элементы вроде фасадов от временных, как припаркованные авто. Тесты без этой фичи показали: она даёт наибольший эффект среди всех компонентов.

Кроме того, камеры Street View ставят на машины и снимают раз в 5–20 метров. Полноценных видео нет, нет видов с уровня пешехода или с воздуха. Чтобы заполнить пробел, создали 12 700 синтетических видео в симуляторе Unreal Engine CARLA, охватив перспективы пешехода, транспорта и свободного полёта. Ещё ввели конвейер для создания временно coherent обучающих видео из разрозненных снимков.

Обзор обучающих данных в двух строках. Сверху реальные: участок карты Сеула с точками съёмки, рядом два референса одной улицы из разных времён с разным транспортом, справа четыре кадра целевого видео. Снизу синтетика: карта симулятора, два референса компьютерного города, четыре кадра синтетического видео с видов пешехода и авто. — Сверху: реальные Street View из Сеула, где референсы и целевое видео нарочно из разных времён. Снизу: синтетика из CARLA с перспективами пешехода и транспорта. | Image: Naver

Наконец, мелкие ошибки накапливаются на длинных дистанциях, поскольку видео строится по частям. Старые методы цепляются за первый кадр как за якорь, но он бесполезен после сотен метров пути камеры.

SWM меняет фиксированный якорь на «виртуальный смотровой пункт вперёд»: для каждой новой секции модель берёт Street View чуть дальше по маршруту и вставляет как виртуальную цель. Это даёт безошибочный ориентир, двигающийся вместе с камерой.

Карты глубины и исходные фото дополняют друг друга

Полученные Street View поступают в генератор по двум взаимодополняющим каналам. Сначала модель проецирует близкий референс в целевую перспективу через данные о глубине, задавая структуру сцены.

Во-вторых, референсы не подаются в трансформер сырыми пикселями. Их кодируют в латентные представления и интегрируют как семантические ориентиры. Так модель ловит детали вида окружения. Без любого из каналов качество сильно падает, отмечают авторы.

SWM основана на Cosmos-Predict2.5-2B от Nvidia — диффузионном трансформере с двумя миллиардами параметров. Обучение прошло на 24 GPU Nvidia H100 с 440 тысячами панорам Сеула, данными CARLA и открытыми записями Waymo.

Схема архитектуры Seoul World Model. Слева сверху входы: текст, GPS, управление клавишами. В центре траектория камеры, запускающая поиск в базе Street View. Полученные изображения идут в Video Diffusion Transformer двумя путями: слева геометрическая проекция, справа как референсы. Посредине Virtual Lookahead Sink как ориентир вперёд. — Пользователи вводят координаты, движение камеры и текст. Модель находит подходящие Street View и подаёт их в видео-трансформер двумя способами: как структуру через карту глубины и как фото для деталей. | Image: Naver

SWM справляется с городами, которых не видела на обучении

Тестировали SWM в Сеуле, а также в Пусане и американском Энн-Арборе — обоих нет в обучающих данных. По статье, модель лучше шести актуальных видео-мировых, включая Aether, DeepVerse и HY-World1.5, по качеству видео, верности камеры, временной связности и соответствию реальным местам. Бенчмарки — 30 последовательностей по 100 метров.

Другие модели на длинных путях теряют чёткость или рушатся. SWM держит стабильность на сотни метров. При строгой привязке к геометрии она всё равно реагирует на текст: меняет погоду, время суток или добавляет сценарии, не трогая основу города.

Отсутствие полных видео всё ещё сдерживает точность предсказаний

Поскольку сплошных видео городов в открытом доступе нет, обучение идёт на интерполированных последовательностях из снимков — они уступают реальным записям. Неточные метки времени иногда вызывают резкое появление или исчезновение машин в видео.

Все Street View обработали по правилам приватности: лица и номера anonymized до обучения, говорят исследователи. Возможные применения — планировка городов, автономное вождение, исследования на местности.

Мировые модели сейчас в фокусе ИИ-разработок. Runway недавно показал первую «общую мировую модель» GWM-1, строящую внутреннее представление окружения и симулирующую события в реальном времени. Глава Google DeepMind Деми Хассабис считает такие модели шагом к общему ИИ. Исследование Microsoft Research и вузов США показало, что большие языковые модели подходят как мировые, предсказывая условия среды с точностью свыше 99 процентов.

Seoul World Model от Naver использует Street View против галлюцинаций ИИ

Реальные данные с улиц порождают три основные трудности

Карты глубины и исходные фото дополняют друг друга

SWM справляется с городами, которых не видела на обучении

Отсутствие полных видео всё ещё сдерживает точность предсказаний

Горячее

Anthropic объяснила быстрый расход лимитов Claude Code

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Топ-5 CLI-инструментов для агентного кодирования

Топ-5 API-провайдеров открытых ИИ-моделей

Open Notebook: альтернатива NotebookLM

Сейчас в тренде