Qwen3-VL анализирует видео и лидирует в математике

Спустя несколько месяцев после выхода Qwen3-VL компания Alibaba поделилась подробным техническим отчетом об открытой мультимодальной модели. Результаты демонстрируют ее сильные стороны в задачах по математике на основе изображений и в обработке многочасовых видеофайлов.

Модель справляется с огромными объемами данных, разбирая двухчасовые видео или сотни страниц документов в пределах контекстного окна на 256 000 токенов.

В тестах типа "иголка в стоге сена" ведущая версия с 235 миллиардами параметров находила отдельные кадры в 30-минутных видео с точностью 100 процентов. Даже в двухчасовых роликах, содержащих около одного миллиона токенов, точность оставалась на уровне 99,5 процента. Суть проверки в том, чтобы вставить случайным образом семантически значимый кадр-"иголку" в длинное видео, а модель должна его обнаружить и разобрать.

Тепловая карта с длиной видео по оси Y и позициями кадров по оси X. Большинство ячеек показывают высокие значения точности в процентах, с идеальными результатами для коротких видео. — Тест "иголка в стоге сена" проверяет способность модели находить конкретные кадры в длинных видео. | Изображение: Alibaba

В опубликованных тестах модель Qwen3-VL-235B-A22B часто обходит Gemini 2.5 Pro, OpenAI GPT-5 и Claude Opus 4.1, даже если соперники задействуют функции рассуждений или большие лимиты на размышления. Она лидирует в визуальных математических заданиях, набирая 85,8 процента на MathVista против 81,3 процента у GPT-5. На MathVision результат 74,6 процента, что лучше, чем 73,3 процента у Gemini 2.5 Pro и 65,8 процента у GPT-5.

Таблица с результатами бенчмарков для Qwen3-VL-235B, Gemini 2.5 Pro, OpenAI GPT-5 и Claude Opus 4.1 — Старая версия Gemini 2.5 Pro немного опережает в общем понимании изображений. | Изображение: Alibaba

Модель проявляет себя и в специализированных проверках. На тесте DocVQA по пониманию документов она набрала 96,5 процента, а на OCRBench — 875 баллов, поддерживая 39 языков, что почти в четыре раза больше, чем у предшественника.

Гистограмма точности OCR для Qwen3-VL по 39 языкам, где большинство столбцов превышают 70-процентную отметку. — Qwen3-VL достигает более 70 процентов точности в OCR-задачах на 32 из 39 поддерживаемых языков. | Изображение: Alibaba

Alibaba подчеркивает новые возможности модели в задачах с GUI-агентами. На ScreenSpot Pro, где проверяется навигация по графическим интерфейсам, точность составила 61,8 процента. В AndroidWorld, где модель самостоятельно управляет приложениями для Android, версия Qwen3-VL-32B показала 63,7 процента.

Модель хорошо работает с многостраничными PDF-файлами. На MMLongBench-Doc для анализа длинных документов результат 56,2 процента. В бенчмарке CharXiv для научных диаграмм она набрала 90,5 процента на задачах описания и 66,2 процента на сложных вопросах рассуждений.

Однако не все тесты прошли идеально. В сложном MMMU-Pro Qwen3-VL набрала 69,3 процента, уступив GPT-5 с 78,4 процента. Коммерческие аналоги обычно лидируют в бенчмарках по видео-вопросам. Данные указывают, что Qwen3-VL сильна в визуальной математике и документах, но отстает в общем рассуждении.

Основные технические улучшения для мультимодального ИИ

Технический отчет описывает три ключевых обновления архитектуры. Во-первых, "interleaved MRoPE" заменяет прежний метод позиционного кодирования. Вместо группировки математических представлений по измерениям (время, горизонталь, вертикаль) новый подход равномерно распределяет их по всем доступным математическим зонам. Это помогает повысить эффективность на длинных видео.

Схема архитектуры Qwen3-VL с визуальным энкодером слева и большой языковой моделью справа, соединенными потоками данных и связями DeepStack. — Qwen3-VL объединяет визуальный энкодер и языковую модель для одновременной обработки текста, изображений и видео. DeepStack использует визуальную информацию с разных уровней обработки. | Изображение: Alibaba

Во-вторых, технология DeepStack дает модели доступ к промежуточным результатам визуального энкодера, а не только к финальному выходу. Так система получает визуальные данные на разных уровнях детализации.

В-третьих, текстовая система временных меток заменяет сложный метод T-RoPE из Qwen2.5-VL. Вместо присвоения математической временной позиции каждому кадру видео модель теперь вставляет простые текстовые маркеры вроде "<3.8 seconds>" прямо в входные данные. Это упрощает процедуру и усиливает понимание временных аспектов в видео-задачах.

Обучение в большом масштабе на триллионе токенов

Alibaba обучила модель в четыре этапа, задействовав до 10 000 GPU. После этапа связи изображений и текста прошла полная мультимодальная подготовка на примерно триллионе токенов. Источники данных включали веб-скрапинг, 3 миллиона PDF из Common Crawl и свыше 60 миллионов задач по STEM.

На поздних этапах контекстное окно постепенно расширили с 8 000 до 32 000 и наконец до 262 000 токенов. Варианты "Thinking" прошли специальное обучение chain-of-thought, чтобы явно разбивать шаги рассуждений и улучшать результаты на сложных проблемах.

Открытые веса по лицензии Apache 2.0

Все модели Qwen3-VL, выпущенные с сентября, доступны по лицензии Apache 2.0 с открытыми весами на Hugging Face. В линейке есть плотные версии от 2B до 32B параметров, а также модели mixture-of-experts: 30B-A3B и огромная 235B-A22B.

Хотя функции вроде извлечения кадров из длинных видео не новы — Google's Gemini 1.5 Pro справлялась с этим в начале 2024 года, — Qwen3-VL предлагает конкурентные показатели в открытом формате. Поскольку предыдущая Qwen2.5-VL уже популярна в исследованиях, новая модель, вероятно, ускорит развитие open-source проектов.

Qwen3-VL: анализ двухчасовых видео с точностью

Основные технические улучшения для мультимодального ИИ

Обучение в большом масштабе на триллионе токенов

Открытые веса по лицензии Apache 2.0

Горячее

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Claude Cowork уязвим к краже файлов

Знакомство со Stickerbox: ИИ для детских стикеров

Топ-7 планов для вайб-кодинга

Топ-5 API-провайдеров открытых ИИ-моделей

Сейчас в тренде