DeepSeek OCR 2 сокращает токены на 80% и бьёт Gemini 3 Pro

Китайская компания DeepSeek представила свежий энкодер для зрения, который сортирует информацию на изображении по смыслу, а не сканирует её строго слева направо и сверху вниз.

Обычные модели для зрения и языка разрезают картинки на мелкие кусочки и обрабатывают их в строгой последовательности — от верхнего левого угла к нижнему правому. Сотрудники DeepSeek объясняют: такой метод не похож на то, как смотрят люди. Взгляд следует за содержимым гибко. При просмотре спирали, к примеру, мы не прыгаем по строкам, а ведём глазами по форме.

DeepSeek OCR 2 подражает этому. Новый DeepEncoder V2 сначала анализирует визуальные токены по их содержанию, перестраивает их с учётом контекста, и только потом языковая модель разбирает, что к чему. Идея в том, что последовательная работа двух этапов позволит по-настоящему понять двумерный контент изображения.

Языковая модель вместо классического энкодера зрения

В основе DeepEncoder V2 — компактная языковая модель на базе Qwen2 0.5B от Alibaba вместо привычного CLIP. Разработчики добавили causal flow tokens — обучаемые токены-запросы, которые цепляются к визуальным токенам и получают доступ ко всей информации изображения плюс предыдущим запросам.

Как указано в статье, получается двухэтапный процесс. Сначала энкодер переупорядочивает визуальную информацию по содержанию. Потом декодер на базе LLM рассуждает над уже отсортированной последовательностью. К декодеру передаются только перестроенные causal flow tokens, а не исходные визуальные.

Меньше токенов — выше эффективность

DeepSeek OCR 2 тратит от 256 до 1120 визуальных токенов в зависимости от изображения. У похожих моделей этот показатель часто превышает 6000–7000. На бенчмарке OmniDocBench v1.5, который проверяет обработку документов на 1355 страницах из девяти категорий, модель набрала 91,09% в общем зачёте, по данным разработчиков.

Это на 3,73 процентных пункта лучше предыдущей DeepSeek OCR. Особенно заметен прогресс в распознавании правильного порядка чтения. При разборе документов DeepSeek OCR 2 обошла Gemini 3 Pro при схожем бюджете токенов.

В реальных задачах снизилась повторяемость — частота зацикливания на лишнем тексте. Как OCR-бэкенд для языковых моделей DeepSeek она упала с 6,25% до 4,17%. При пакетной обработке PDF для обучающих данных — с 3,69% до 2,88%.

Есть и слабые места. На газетах модель уступает предшественнику. Причины, по мнению авторов: меньший лимит токенов плохо справляется с текстовой плотностью газетных страниц, а в обучающих данных было всего 250 000 таких страниц — маловато для категории.

Шаг к универсальной мультимодальной обработке

DeepEncoder V2 видят как движение к стандартной мультимодальной обработке. В перспективе архитектура сможет работать с текстом, речью и изображениями в едином формате, меняя только токены-запросы под тип данных. По данным статьи, такой подход приблизит настоящее понимание двумерного контента.

Код и веса модели открыты на GitHub и Hugging Face.

Первое поколение DeepSeek OCR сжимает текстовые документы как изображения и снижает потребление памяти в десять раз. Благодаря этому языковые модели держат больше контекста — полезно для длинных диалогов или объёмных файлов. Система способна перерабатывать до 33 миллионов страниц в день и особенно хороша для создания больших наборов обучающих данных.

DeepSeek OCR 2: токены на 80% меньше, лучше Gemini

Языковая модель вместо классического энкодера зрения

Меньше токенов — выше эффективность

Шаг к универсальной мультимодальной обработке

Горячее

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Claude Cowork уязвим к краже файлов

Знакомство со Stickerbox: ИИ для детских стикеров

Топ-7 планов для вайб-кодинга

Топ-5 API-провайдеров открытых ИИ-моделей

Сейчас в тренде