Китайская компания DeepSeek представила свежий энкодер для зрения, который сортирует информацию на изображении по смыслу, а не сканирует её строго слева направо и сверху вниз.
Обычные модели для зрения и языка разрезают картинки на мелкие кусочки и обрабатывают их в строгой последовательности — от верхнего левого угла к нижнему правому. Сотрудники DeepSeek объясняют: такой метод не похож на то, как смотрят люди. Взгляд следует за содержимым гибко. При просмотре спирали, к примеру, мы не прыгаем по строкам, а ведём глазами по форме.
DeepSeek OCR 2 подражает этому. Новый DeepEncoder V2 сначала анализирует визуальные токены по их содержанию, перестраивает их с учётом контекста, и только потом языковая модель разбирает, что к чему. Идея в том, что последовательная работа двух этапов позволит по-настоящему понять двумерный контент изображения.
Языковая модель вместо классического энкодера зрения
В основе DeepEncoder V2 — компактная языковая модель на базе Qwen2 0.5B от Alibaba вместо привычного CLIP. Разработчики добавили causal flow tokens — обучаемые токены-запросы, которые цепляются к визуальным токенам и получают доступ ко всей информации изображения плюс предыдущим запросам.
Как указано в статье, получается двухэтапный процесс. Сначала энкодер переупорядочивает визуальную информацию по содержанию. Потом декодер на базе LLM рассуждает над уже отсортированной последовательностью. К декодеру передаются только перестроенные causal flow tokens, а не исходные визуальные.
Меньше токенов — выше эффективность
DeepSeek OCR 2 тратит от 256 до 1120 визуальных токенов в зависимости от изображения. У похожих моделей этот показатель часто превышает 6000–7000. На бенчмарке OmniDocBench v1.5, который проверяет обработку документов на 1355 страницах из девяти категорий, модель набрала 91,09% в общем зачёте, по данным разработчиков.
Это на 3,73 процентных пункта лучше предыдущей DeepSeek OCR. Особенно заметен прогресс в распознавании правильного порядка чтения. При разборе документов DeepSeek OCR 2 обошла Gemini 3 Pro при схожем бюджете токенов.
В реальных задачах снизилась повторяемость — частота зацикливания на лишнем тексте. Как OCR-бэкенд для языковых моделей DeepSeek она упала с 6,25% до 4,17%. При пакетной обработке PDF для обучающих данных — с 3,69% до 2,88%.
Есть и слабые места. На газетах модель уступает предшественнику. Причины, по мнению авторов: меньший лимит токенов плохо справляется с текстовой плотностью газетных страниц, а в обучающих данных было всего 250 000 таких страниц — маловато для категории.
Шаг к универсальной мультимодальной обработке
DeepEncoder V2 видят как движение к стандартной мультимодальной обработке. В перспективе архитектура сможет работать с текстом, речью и изображениями в едином формате, меняя только токены-запросы под тип данных. По данным статьи, такой подход приблизит настоящее понимание двумерного контента.
Код и веса модели открыты на GitHub и Hugging Face.
Первое поколение DeepSeek OCR сжимает текстовые документы как изображения и снижает потребление памяти в десять раз. Благодаря этому языковые модели держат больше контекста — полезно для длинных диалогов или объёмных файлов. Система способна перерабатывать до 33 миллионов страниц в день и особенно хороша для создания больших наборов обучающих данных.