Artificial Analysis представил версию 2.0 бенчмарка AA-WER для оценки моделей преобразования речи в текст. Лидером стала Scribe v2 от ElevenLabs с уровнем ошибок слов всего 2,3%. За ней следует Gemini 3 Pro от Google (2,9%) и Voxtral Small от Mistral (3,0%). Почти не отстают Gemini 3 Flash от Google (3,1%) и более ранняя Scribe v1 от ElevenLabs (3,2%). Стоит отметить: Google не настраивал модель специально под транскрипцию — успех обеспечивают универсальные мультимодальные возможности Gemini. Популярная открытая модель Whisper Large v3 от OpenAI занимает средние позиции с 4,2%, а в конце списка оказались Qwen3 ASR Flash от Alibaba (5,9%), Nova 2 Omni от Amazon (6,0%) и Rev AI (6,1%).

Такие же тенденции видны в отдельном тесте AA-AgentTalk, где оценивается речь, направленная на голосовые ассистенты: Scribe v2 показывает 1,6%, Gemini 3 Pro — 1,7%, а третье место с 2,3% занимает Universal-3 Pro от AssemblyAI.
