D4RT: Google DeepMind ускоряет 4D-восприятие для роботов

Новая модель D4RT от Google DeepMind восстанавливает динамичные сцены из видео в четырех измерениях и работает до 300 раз быстрее предшественников.

Люди естественно воспринимают окружающий мир в трех измерениях и понимают перемещение объектов в пространстве и времени. Для систем ИИ такая способность долго оставалась серьезным вычислительным препятствием, считают в Google DeepMind.

Модель D4RT (Dynamic 4D Reconstruction and Tracking) решает эту задачу за счет архитектуры, которая объединяет оценку глубины, пространственно-временные соответствия и параметры камеры в единую систему.

Простой подход вместо сложных цепочек моделей

Раньше для 4D-реконструкции применяли набор специализированных моделей, каждая из которых занималась отдельными задачами: оценкой глубины, сегментацией движения или определением позы камеры. Такие разрозненные системы требовали дополнительных шагов оптимизации для обеспечения геометрической согласованности.

Как указано в исследовательской работе, D4RT использует другой метод, опираясь на Scene Representation Transformer: мощный энкодер обрабатывает полную последовательность видео целиком и сжимает ее в глобальное представление сцены. Затем легковесный декодер запрашивает данные только для нужных точек.

Вся система сводится к одному вопросу: где находится конкретный пиксель из видео в 3D-пространстве в любой момент времени с позиции выбранной камеры? Поскольку запросы выполняются независимо, процесс полностью параллелизуется на современном оборудовании для ИИ.

В отличие от конкурентов с отдельными декодерами для разных задач, D4RT применяет единственный декодер для траекторий точек, облаков точек, карт глубины и параметров камеры. Модель предсказывает положение объектов даже тогда, когда они не видны в других кадрах. Она справляется как со статичными окружениями, так и с динамичными сценами, где объекты перемещаются.

Скорость выросла в 18–300 раз

Прирост производительности значителен. D4RT работает в 18–300 раз быстрее аналогичных методов, по данным исследователей. Она обрабатывает минутное видео примерно за пять секунд на одном чипе TPU — предыдущие подходы тратили на это до десяти минут.

В тестах Google DeepMind D4RT превосходит существующие методы по оценке глубины, реконструкции облаков точек, определению позы камеры и отслеживанию 3D-точек. Только на задаче оценки позы камеры модель достигает более 200 кадров в секунду — это в девять раз быстрее VGGT и в сто раз быстрее MegaSaM, при этом с более высокой точностью.

Перспективы: шаг к AGI

Сейчас технология позволит роботам лучше ориентироваться в пространстве и поможет приложениям дополненной реальности реалистичнее интегрировать виртуальные объекты в реальное окружение, по мнению Google DeepMind. Высокая эффективность делает возможным запуск модели прямо на устройствах.

В долгосрочной перспективе исследователи видят в этом подходе шаг к улучшенным моделям мира, которые необходимы для достижения искусственного общего интеллекта (AGI). Агенты ИИ должны учиться на опыте внутри таких моделей мира, а не просто использовать накопленные знания, как это делают сегодняшние ИИ.

D4RT от Google DeepMind ускоряет 4D-реконструкцию видео

Простой подход вместо сложных цепочек моделей

Скорость выросла в 18–300 раз

Перспективы: шаг к AGI

Горячее

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Claude Cowork уязвим к краже файлов

Знакомство со Stickerbox: ИИ для детских стикеров

Топ-7 планов для вайб-кодинга

Топ-5 API-провайдеров открытых ИИ-моделей

Сейчас в тренде