Mistral AI снижает цены на распознавание речи
Mistral AI выпустила второе поколение моделей Voxtral Transcribe 2, которые обходят конкурентов по стоимости распознавания речи. Начальная цена — всего $0.003 за минуту. Разработчики заявляют, что модели превосходят по точности GPT-4o mini Transcribe, Gemini 2.5 Flash и Deepgram Nova. Линейка включает два варианта: Voxtral Mini Transcribe V2 для больших аудиофайлов и Voxtral Realtime для задач в реальном времени с задержкой менее 200 миллисекунд. Версия Realtime дороже вдвое и работает на базе собственной потоковой архитектуры — она обрабатывает аудио по мере поступления. Такие возможности подходят для голосовых ассистентов, субтитров в прямом эфире или анализа звонков в колл-центрах.
Поддержка языков и новые функции
Обе модели умеют работать с 13 языками, в том числе немецким, английским и китайским. Появились свежие опции: распознавание спикеров, временные метки на уровне слов и обработка записей длиной до трёх часов. Voxtral Realtime открыта в формате open-weights под лицензией Apache 2.0 — её можно скачать на Hugging Face или использовать через API. А Voxtral Mini Transcribe V2 доступна только в Le Chat, Mistral API и песочнице для тестов. Первое поколение Voxtral компания представила в июле 2025 года.