Alibaba представила Qwen3.5-Omni — омнимодальную модель ИИ, способную работать с текстом, изображениями, аудио и видео. Она превосходит Gemini 3.1 Pro в аудиозадачах и при этом обрела неожиданную способность: генерировать код на основе устных указаний и видеовходов.
Новейшая версия линейки Qwen от Alibaba вышла в трех вариантах Instruct (Plus, Flash и Light). Поддерживает контекст до 256 000 токенов и, по словам разработчиков, обрабатывает свыше десяти часов аудио плюс более 400 секунд видео в 720p при одном кадре в секунду. Модель прошла нативную предобработку как омнимодальная на данных объемом свыше 100 миллионов часов аудиовизуального контента. Она выдает речь параллельно с текстом.
Qwen3.5-Omni-Plus установила рекорды на 215 аудиобенчмарках
Разработчики из Qwen сообщают: версия Plus достигла лучших показателей сразу на 215 подзадачах по аудио и аудиовизуальным тестам. Это охватывает три аудиовизуальных бенчмарка, пять аудио, восемь задач распознавания речи, 156 переводческих заданий на разных языках и 43 задания по распознаванию на конкретных языках. Qwen3.5-Omni-Plus обходит Gemini 3.1 Pro от Google по общему пониманию аудио, рассуждениям, распознаванию, переводу и диалогам. В аудиовизуальном понимании она сравнялась с Gemini 3.1 Pro.

Среди конкретных результатов Qwen3.5-Omni-Plus набрала 82,2 в понимании аудио (MMAU) против 81,1 у Gemini 3.1 Pro. Разрыв растет в распознавании музыки (RUL-MuchoMusic): 72,4 против 59,6. На бенчмарке VoiceBench для диалогов модель достигла 93,1, обойдя Gemini с 88,9. Визуальные и текстовые возможности соответствуют отдельным текстовым моделям Qwen3.5 того же размера.
В генерации речи сравнение шло с ElevenLabs, Gemini 2.5 Pro, GPT-Audio и Minimax. На сложном наборе "seed-hard" Qwen3.5-Omni-Plus показала word error rate 6,24. У GPT-Audio — 8,19, Minimax — 8,62, ElevenLabs — 27,70. При клонировании голосов на 20 языках модель получила word error rate 1,87 и cosine similarity 0,79.
Распознавание речи расширилось до 74 языков
Команда Qwen значительно увеличила языковую поддержку по сравнению с Qwen3-Omni. Теперь распознавание речи работает для 74 языков и 39 китайских диалектов — всего 113 языков и диалектов. Предыдущая версия охватывала лишь 11 языков и 8 китайских диалектов. Синтез речи поддерживает 36 языков и диалектов с 55 голосами, включая пользовательские, сценариевые, диалектные и многоязычные варианты.
