Новая модель D4RT от Google DeepMind восстанавливает динамичные сцены из видео в четырех измерениях и работает до 300 раз быстрее предшественников.
Люди естественно воспринимают окружающий мир в трех измерениях и понимают перемещение объектов в пространстве и времени. Для систем ИИ такая способность долго оставалась серьезным вычислительным препятствием, считают в Google DeepMind.
Модель D4RT (Dynamic 4D Reconstruction and Tracking) решает эту задачу за счет архитектуры, которая объединяет оценку глубины, пространственно-временные соответствия и параметры камеры в единую систему.
Простой подход вместо сложных цепочек моделей
Раньше для 4D-реконструкции применяли набор специализированных моделей, каждая из которых занималась отдельными задачами: оценкой глубины, сегментацией движения или определением позы камеры. Такие разрозненные системы требовали дополнительных шагов оптимизации для обеспечения геометрической согласованности.
Как указано в исследовательской работе, D4RT использует другой метод, опираясь на Scene Representation Transformer: мощный энкодер обрабатывает полную последовательность видео целиком и сжимает ее в глобальное представление сцены. Затем легковесный декодер запрашивает данные только для нужных точек.
Вся система сводится к одному вопросу: где находится конкретный пиксель из видео в 3D-пространстве в любой момент времени с позиции выбранной камеры? Поскольку запросы выполняются независимо, процесс полностью параллелизуется на современном оборудовании для ИИ.
В отличие от конкурентов с отдельными декодерами для разных задач, D4RT применяет единственный декодер для траекторий точек, облаков точек, карт глубины и параметров камеры. Модель предсказывает положение объектов даже тогда, когда они не видны в других кадрах. Она справляется как со статичными окружениями, так и с динамичными сценами, где объекты перемещаются.
Скорость выросла в 18–300 раз
Прирост производительности значителен. D4RT работает в 18–300 раз быстрее аналогичных методов, по данным исследователей. Она обрабатывает минутное видео примерно за пять секунд на одном чипе TPU — предыдущие подходы тратили на это до десяти минут.
В тестах Google DeepMind D4RT превосходит существующие методы по оценке глубины, реконструкции облаков точек, определению позы камеры и отслеживанию 3D-точек. Только на задаче оценки позы камеры модель достигает более 200 кадров в секунду — это в девять раз быстрее VGGT и в сто раз быстрее MegaSaM, при этом с более высокой точностью.
Перспективы: шаг к AGI
Сейчас технология позволит роботам лучше ориентироваться в пространстве и поможет приложениям дополненной реальности реалистичнее интегрировать виртуальные объекты в реальное окружение, по мнению Google DeepMind. Высокая эффективность делает возможным запуск модели прямо на устройствах.
В долгосрочной перспективе исследователи видят в этом подходе шаг к улучшенным моделям мира, которые необходимы для достижения искусственного общего интеллекта (AGI). Агенты ИИ должны учиться на опыте внутри таких моделей мира, а не просто использовать накопленные знания, как это делают сегодняшние ИИ.