Спустя несколько месяцев после выхода Qwen3-VL компания Alibaba поделилась подробным техническим отчетом об открытой мультимодальной модели. Результаты демонстрируют ее сильные стороны в задачах по математике на основе изображений и в обработке многочасовых видеофайлов.
Модель справляется с огромными объемами данных, разбирая двухчасовые видео или сотни страниц документов в пределах контекстного окна на 256 000 токенов.
В тестах типа "иголка в стоге сена" ведущая версия с 235 миллиардами параметров находила отдельные кадры в 30-минутных видео с точностью 100 процентов. Даже в двухчасовых роликах, содержащих около одного миллиона токенов, точность оставалась на уровне 99,5 процента. Суть проверки в том, чтобы вставить случайным образом семантически значимый кадр-"иголку" в длинное видео, а модель должна его обнаружить и разобрать.
В опубликованных тестах модель Qwen3-VL-235B-A22B часто обходит Gemini 2.5 Pro, OpenAI GPT-5 и Claude Opus 4.1, даже если соперники задействуют функции рассуждений или большие лимиты на размышления. Она лидирует в визуальных математических заданиях, набирая 85,8 процента на MathVista против 81,3 процента у GPT-5. На MathVision результат 74,6 процента, что лучше, чем 73,3 процента у Gemini 2.5 Pro и 65,8 процента у GPT-5.
Модель проявляет себя и в специализированных проверках. На тесте DocVQA по пониманию документов она набрала 96,5 процента, а на OCRBench — 875 баллов, поддерживая 39 языков, что почти в четыре раза больше, чем у предшественника.
Alibaba подчеркивает новые возможности модели в задачах с GUI-агентами. На ScreenSpot Pro, где проверяется навигация по графическим интерфейсам, точность составила 61,8 процента. В AndroidWorld, где модель самостоятельно управляет приложениями для Android, версия Qwen3-VL-32B показала 63,7 процента.
Модель хорошо работает с многостраничными PDF-файлами. На MMLongBench-Doc для анализа длинных документов результат 56,2 процента. В бенчмарке CharXiv для научных диаграмм она набрала 90,5 процента на задачах описания и 66,2 процента на сложных вопросах рассуждений.
Однако не все тесты прошли идеально. В сложном MMMU-Pro Qwen3-VL набрала 69,3 процента, уступив GPT-5 с 78,4 процента. Коммерческие аналоги обычно лидируют в бенчмарках по видео-вопросам. Данные указывают, что Qwen3-VL сильна в визуальной математике и документах, но отстает в общем рассуждении.
Основные технические улучшения для мультимодального ИИ
Технический отчет описывает три ключевых обновления архитектуры. Во-первых, "interleaved MRoPE" заменяет прежний метод позиционного кодирования. Вместо группировки математических представлений по измерениям (время, горизонталь, вертикаль) новый подход равномерно распределяет их по всем доступным математическим зонам. Это помогает повысить эффективность на длинных видео.
Во-вторых, технология DeepStack дает модели доступ к промежуточным результатам визуального энкодера, а не только к финальному выходу. Так система получает визуальные данные на разных уровнях детализации.
В-третьих, текстовая система временных меток заменяет сложный метод T-RoPE из Qwen2.5-VL. Вместо присвоения математической временной позиции каждому кадру видео модель теперь вставляет простые текстовые маркеры вроде "<3.8 seconds>" прямо в входные данные. Это упрощает процедуру и усиливает понимание временных аспектов в видео-задачах.
Обучение в большом масштабе на триллионе токенов
Alibaba обучила модель в четыре этапа, задействовав до 10 000 GPU. После этапа связи изображений и текста прошла полная мультимодальная подготовка на примерно триллионе токенов. Источники данных включали веб-скрапинг, 3 миллиона PDF из Common Crawl и свыше 60 миллионов задач по STEM.
На поздних этапах контекстное окно постепенно расширили с 8 000 до 32 000 и наконец до 262 000 токенов. Варианты "Thinking" прошли специальное обучение chain-of-thought, чтобы явно разбивать шаги рассуждений и улучшать результаты на сложных проблемах.
Открытые веса по лицензии Apache 2.0
Все модели Qwen3-VL, выпущенные с сентября, доступны по лицензии Apache 2.0 с открытыми весами на Hugging Face. В линейке есть плотные версии от 2B до 32B параметров, а также модели mixture-of-experts: 30B-A3B и огромная 235B-A22B.
Хотя функции вроде извлечения кадров из длинных видео не новы — Google's Gemini 1.5 Pro справлялась с этим в начале 2024 года, — Qwen3-VL предлагает конкурентные показатели в открытом формате. Поскольку предыдущая Qwen2.5-VL уже популярна в исследованиях, новая модель, вероятно, ускорит развитие open-source проектов.