В сфере компьютерного зрения наверняка доводилось слышать о RF-DETR – новейшей модели для обнаружения объектов в реальном времени, разработанной компанией Roboflow. Она установила новый стандарт эффективности благодаря выдающимся результатам. Чтобы по-настоящему понять, что обеспечивает её успех, стоит заглянуть глубже цифр и разобраться в архитектурных основах.
RF-DETR не является полностью оригинальным изобретением; её развитие представляет собой последовательное преодоление вызовов, начиная с базовых недостатков исходной DETR и завершая компактной трансформерной моделью для работы в реальном времени. Проследим этот путь эволюции.
Смена парадигмы в конвейерах обнаружения
В 2020 году появилась DETR (DEtection TRansformer) [1] – модель, радикально преобразившая процесс обнаружения объектов. Это был первый полностью энд-ту-энд детектор, избавившийся от ручных элементов, таких как генерация якорей и подавление немаксимумов (NMS). Достижение этого стало возможным за счёт интеграции CNN-основы с архитектурой энкодер-декодер на базе трансформера. Несмотря на новаторский подход, первоначальная DETR страдала от серьёзных недостатков:
- Крайне медленная сходимость: DETR требовала огромного количества эпох обучения для достижения стабильности, что в 10-20 раз замедляло процесс по сравнению с такими моделями, как Faster R-CNN.
- Высокая вычислительная сложность: Механизм внимания в энкодере трансформера обладает сложностью O(H2W2C) относительно пространственных размеров (H, W) карты признаков. Эта квадратичная зависимость делала обработку высококачественных карт признаков чрезмерно затратной.
- Низкая эффективность на малых объектах: Прямая следствие высокой сложности препятствовало использованию высококачественных карт признаков, необходимых для выявления мелких объектов.
Все эти проблемы коренились в методе обработки изображений через трансформерное внимание, которое анализировало каждый пиксель, что оказывалось неэффективным и сложным в обучении.
Прорыв: Deformable DETR
Для устранения недостатков DETR разработчики обратились к прошлому и черпали идеи из деформируемых сверточных сетей [2]. Долгое время CNN доминировали в компьютерном зрении, но обладали фундаментальным ограничением: трудности с моделированием геометрических преобразований из-за фиксированных структур в слоях свертки и пулинга.
- Новый модуль, деформируемая свертка, дополняет стандартную сетку выборки 2D-смещениями.
- Важно, что эти смещения не статичны; они обучаются на основе предыдущих карт признаков с помощью дополнительных сверточных слоев.
- Это позволяет сетке выборки динамически адаптироваться к форме и масштабу объекта локально и плотно.

Концепцию адаптивной выборки из деформируемых сверток применили к механизму внимания трансформера, что привело к созданию Deformable DETR [3].
Основное новшество – модуль деформируемого внимания. Вместо расчёта весов внимания по всем пикселям карты признаков этот модуль действует умнее:
- Он фокусируется лишь на небольшом фиксированном наборе ключевых точек выборки вокруг опорной точки.
- Аналогично деформируемой свертке, 2D-смещения для этих точек определяются из самого запроса через линейную проекцию.
- Отпадает необходимость в отдельной архитектуре FPN, поскольку механизм внимания способен напрямую обрабатывать и объединять признаки разных масштабов.

Прорыв деформируемого внимания заключается в фокусе "лишь на небольшом наборе ключевых точек выборки" [3] вокруг опорной точки, независимо от размеров карты признаков. Анализ в статье демонстрирует, что при использовании этого модуля в энкодере (где количество запросов Nq равно HW), сложность снижается до O(HWC2), становясь линейной по пространственным размерам. Это единственное изменение делает возможной обработку высококачественных карт признаков, существенно повышая точность на малых объектах.
Достижение реального времени: LW-DETR
Deformable DETR устранила проблемы сходимости и точности, но для конкуренции с YOLO требовалась большая скорость. Здесь на сцену выходит LW-DETR (Light-Weight DETR) [4]. Цель – разработать трансформерную архитектуру, превосходящую YOLO в обнаружении объектов в реальном времени. Структура проста: энкодер на базе Vision Transformer (ViT), проектор и неглубокий декодер DETR. Убрали энкодер-декодерную часть из фреймворка DETR, оставив только декодер.

Для обеспечения скорости внедрили несколько ключевых приёмов оптимизации:
- Деформируемое кросс-внимание: Декодер напрямую применяет эффективный механизм деформируемого внимания из Deformable DETR, что критично для производительности.
- Чередование оконного и глобального внимания: Энкодер ViT ресурсоёмок. Чтобы снизить сложность, LW-DETR заменяет часть дорогих глобальных слоёв само-внимания на дешёвые оконные слои само-внимания.
- Неглубокий декодер: Стандартные варианты DETR часто используют 6 слоёв декодера. LW-DETR ограничивается 3, что резко уменьшает задержку.
Проектор в LW-DETR служит важным связующим звеном между энкодером ViT и декодером DETR. Он реализован на базе блока C2f – эффективного сверточного блока из модели YOLOv8. Этот блок обрабатывает признаки и подготавливает их для кросс-внимания декодера. Сочетая мощь деформируемого внимания с этими лёгкими решениями, LW-DETR доказала, что модель в стиле DETR может стать лидером в реальном времени обнаружения.
Сборка компонентов для RF-DETR
Это подводит к RF-DETR [5]. Она не самостоятельный прорыв, а естественное продолжение эволюции. В частности, RF-DETR создана путём объединения LW-DETR с предобученной основой DINOv2. Это наделяет модель выдающейся способностью адаптироваться к новым доменам благодаря знаниям, накопленным в DINOv2. Причина такой адаптивности в том, что DINOv2 – модель самообучения. В отличие от традиционных основ, обученных на ImageNet с жёсткими метками, DINOv2 готовилась на огромном некурированном датасете без аннотаций. Она училась, решая подобие "пазла", развивая глубокое понимание текстур, форм и частей объектов. Используя эту основу, RF-DETR получает не просто экстрактор признаков, а обширную базу визуальных знаний, которую можно эффективно дообучить для специализированных задач.

Отличие от предшественников: Deformable DETR применяет многоуровневое само-внимание, в то время как RF-DETR извлекает карты признаков из одноуровневой основы. Недавно разработчики RF-DETR добавили голову сегментации, обеспечивающую маски помимо bounding box, что делает её подходящей для задач сегментации.
Заключение
Исходная DETR преобразила конвейер обнаружения, устранив ручные компоненты вроде NMS, но оставалась непрактичной из-за медленной сходимости и квадратичной сложности. Deformable DETR внесла ключевой архитектурный прорыв, заменив глобальное внимание на эффективный адаптивный механизм выборки, вдохновлённый деформируемыми свертками. LW-DETR показала, что эта оптимизированная архитектура подходит для реального времени, бросая вызов доминированию YOLO. RF-DETR – следующий шаг: она интегрирует эту высокооптимизированную деформируемую структуру с мощью современной самообучаемой основы.
Ссылки
[1] End-to-End Object Detection with Transformers. Nicolas Carion et. al. 2020.
[2] Deformable Convolutional Networks. Jifeng Dai et. al. 2017.
[3] Deformable DETR: Deformable Transformers for End-to-End Object Detection. Xizhou Zhu et. al. 2020.
[4] LW-DETR: A Transformer Replacement to YOLO for Real-Time Detection. Qiang Chen et. al. 2024.