Waymo представила генеративную модель симуляции для автономного вождения на базе Genie 3 от Google DeepMind. Она создаёт сверхреалистичные ситуации — от столкновений со слонами до торнадо, — которые практически невозможно собрать в реальности в достаточном объёме.
Оператор роботакси Waymo анонсировал Waymo World Model — генеративную модель мира, предназначенную для имитации ситуаций автономного вождения. Эта разработка опирается на Genie 3, которую Google DeepMind считает своей наиболее продвинутой общей моделью мира, с адаптацией под особенности дорожного движения.
«Благодаря обширным знаниям о мире, накопленным Genie 3 за счёт предобучения на огромном разнообразном массиве видео, мы можем изучать сценарии, которых наш флот ещё не встречал», отмечают в Waymo.
Waymo относит симуляции к трём основным компонентам своей стратегии безопасности. Система Waymo Driver уже прошла почти 200 миллионов полностью автономных миль, но перед выходом на общественные дороги она преодолевает миллиарды миль в виртуальной среде, уточняет компания.
По мнению Waymo, такая практика с редкими сценариями лучше подготавливает Waymo Driver к запутанным ситуациям. В объявлении компания не привела результатов тестов или данных независимых проверок.
Общие знания о мире эффективнее узких данных о поездках
В Waymo подчёркивают: типичные симуляционные модели в отрасли обучают только на внутренних данных компании, что сковывает их рамками конкретного опыта. Waymo World Model черпает из широкого понимания мира, которое Genie 3 получила при предобучении на гигантском наборе разнообразных видео.
С помощью целенаправленного дообучения эти знания из 2D-видео преобразуются в 3D-данные лидара, подходящие под оборудование Waymo. Модель выдаёт как камерные изображения с визуальными деталями, так и лидарные сигналы с точной информацией о глубине — они дополняют друг друга.
Это позволяет воспроизводить события, которых флот Waymo не фиксировал: встречу со слоном, торнадо, затопленный жилой район или снег на тропических дорогах с пальмами.
Способы управления разными сценариями в системе
Waymo World Model предоставляет три метода контроля симуляций. Управление действиями водителя помогает инженерам проверять альтернативные варианты развития событий — например, как Waymo Driver справился бы иначе. В отличие от реконструктивных подходов вроде 3D Gaussian splats, которые теряют визуальную целостность при отклонении от маршрута, генеративная модель сохраняет реализм и последовательность, уверены в Waymo.
Контроль макета сцены меняет конфигурацию дорог, состояние светофоров и поведение других участников движения. Текстовые промты дают максимум свободы: они создают разное время суток, погоду или полностью искусственные окружения. Модель способна превращать обычные видео с даш-камеры или смартфона в мультимодальные симуляции, показывающие, как Waymo Driver воспримет сцену своими сенсорами.
Для затяжных ситуаций, таких как проезд по узкой полосе, Waymo создала упрощённую версию модели. Она обеспечивает значительное снижение вычислительных затрат и подходит для симуляций в больших масштабах.