Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

Voxtral Transcribe 2 распознаёт речь за $0.003/мин

Mistral AI запустила Voxtral Transcribe 2 — модели распознавания речи по цене от $0.003 за минуту, дешевле и точнее GPT-4o mini Transcribe, Gemini 2.5 Flash и Deepgram Nova. Есть версии для больших файлов и реального времени с задержкой менее 200 мс, поддержка 13 языков, распознавание спикеров и до 3 часов аудио. Одна модель открыта на Hugging Face под Apache 2.0.

5 февраля 2026 г.
1 мин
40

Mistral AI снижает цены на распознавание речи

Mistral AI выпустила второе поколение моделей Voxtral Transcribe 2, которые обходят конкурентов по стоимости распознавания речи. Начальная цена — всего $0.003 за минуту. Разработчики заявляют, что модели превосходят по точности GPT-4o mini Transcribe, Gemini 2.5 Flash и Deepgram Nova. Линейка включает два варианта: Voxtral Mini Transcribe V2 для больших аудиофайлов и Voxtral Realtime для задач в реальном времени с задержкой менее 200 миллисекунд. Версия Realtime дороже вдвое и работает на базе собственной потоковой архитектуры — она обрабатывает аудио по мере поступления. Такие возможности подходят для голосовых ассистентов, субтитров в прямом эфире или анализа звонков в колл-центрах.

Поддержка языков и новые функции

Обе модели умеют работать с 13 языками, в том числе немецким, английским и китайским. Появились свежие опции: распознавание спикеров, временные метки на уровне слов и обработка записей длиной до трёх часов. Voxtral Realtime открыта в формате open-weights под лицензией Apache 2.0 — её можно скачать на Hugging Face или использовать через API. А Voxtral Mini Transcribe V2 доступна только в Le Chat, Mistral API и песочнице для тестов. Первое поколение Voxtral компания представила в июле 2025 года.