Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

HP и искусство ИИ с данными для корпоративного сектора

Перед AI & Big Data Expo в Сан-Хосе менеджер HP Жером Габришевски рассказал об ИИ, обработке данных для моделей и сравнении локальных с облачными вычислениями. Обсудили ключевые аспекты для бизнеса. СМИ часто цитируют фразу о данных как о новом [...].

6 мая 2026 г.
1 мин
50

Alibaba представила Qwen3.5-Omni — омнимодальную модель ИИ, способную работать с текстом, изображениями, аудио и видео. Она превосходит Gemini 3.1 Pro в аудиозадачах и при этом обрела неожиданную способность: генерировать код на основе устных указаний и видеовходов.

Новейшая версия линейки Qwen от Alibaba вышла в трех вариантах Instruct (Plus, Flash и Light). Поддерживает контекст до 256 000 токенов и, по словам разработчиков, обрабатывает свыше десяти часов аудио плюс более 400 секунд видео в 720p при одном кадре в секунду. Модель прошла нативную предобработку как омнимодальная на данных объемом свыше 100 миллионов часов аудиовизуального контента. Она выдает речь параллельно с текстом.

Qwen3.5-Omni-Plus установила рекорды на 215 аудиобенчмарках

Разработчики из Qwen сообщают: версия Plus достигла лучших показателей сразу на 215 подзадачах по аудио и аудиовизуальным тестам. Это охватывает три аудиовизуальных бенчмарка, пять аудио, восемь задач распознавания речи, 156 переводческих заданий на разных языках и 43 задания по распознаванию на конкретных языках. Qwen3.5-Omni-Plus обходит Gemini 3.1 Pro от Google по общему пониманию аудио, рассуждениям, распознаванию, переводу и диалогам. В аудиовизуальном понимании она сравнялась с Gemini 3.1 Pro.

Столбчатые диаграммы сравнивают Qwen3.5-Omni-Plus, Qwen3.5-Omni-Flash и Gemini 3.1 Pro по пяти аудиовизуальным бенчмаркам: DailyOmni (84,6 против 82,7), WorldSense (62,8 против 65,5), AVUT (85,0 против 85,6), QualcommInteractive (68,5 против 66,2), Omni-Cloze (64,8 против 57,2).
Qwen3.5-Omni-Plus опережает или равна Gemini 3.1 Pro по аудиовизуальным бенчмаркам. Самый большой разрыв — в детальном описании аудиовизуального контента (Omni-Cloze). | Изображение: Qwen

Среди конкретных результатов Qwen3.5-Omni-Plus набрала 82,2 в понимании аудио (MMAU) против 81,1 у Gemini 3.1 Pro. Разрыв растет в распознавании музыки (RUL-MuchoMusic): 72,4 против 59,6. На бенчмарке VoiceBench для диалогов модель достигла 93,1, обойдя Gemini с 88,9. Визуальные и текстовые возможности соответствуют отдельным текстовым моделям Qwen3.5 того же размера.

В генерации речи сравнение шло с ElevenLabs, Gemini 2.5 Pro, GPT-Audio и Minimax. На сложном наборе "seed-hard" Qwen3.5-Omni-Plus показала word error rate 6,24. У GPT-Audio — 8,19, Minimax — 8,62, ElevenLabs — 27,70. При клонировании голосов на 20 языках модель получила word error rate 1,87 и cosine similarity 0,79.

Распознавание речи расширилось до 74 языков

Команда Qwen значительно увеличила языковую поддержку по сравнению с Qwen3-Omni. Теперь распознавание речи работает для 74 языков и 39 китайских диалектов — всего 113 языков и диалектов. Предыдущая версия охватывала лишь 11 языков и 8 китайских диалектов. Синтез речи поддерживает 36 языков и диалектов с 55 голосами, включая пользовательские, сценариевые, диалектные и многоязычные варианты.

Пять столбчатых диаграмм сравнивают генерацию речи Qwen3.5-Omni-Plus, Gemini 2.5 Pro, GPT-Audio, ElevenLabs и Minimax. Метрики: стабильность кастомного голоса hard, многоязычная стабильность на 20 и 10 языках, стабильность клонирования голоса, схожесть клонирования. Qwen3.5-Omni-Plus лидирует</div></article><div class=