Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

Voxtral от Mistral: первая открытая TTS-модель клонирует голоса за 3 секунды

Французский стартап Mistral представил Voxtral TTS — первую модель text-to-speech с открытыми весами, поддерживающую девять языков и клонирующую голоса с трех секунд аудио. Она компактна (4 млрд параметров), имеет задержку 70 мс и в тестах естественнее ElevenLabs Flash v2.5. Доступна через API и на Hugging Face.

26 марта 2026 г.
1 мин
25

Французский стартап Mistral представил Voxtral TTSпервую модель синтеза речи из текста. Она работает с девятью языками, включая немецкий, английский, французский и испанский, при этом остается компактной — всего четыре миллиарда параметров. Разработчики подчеркивают: Voxtral создает реалистичную речь с эмоциональной выразительностью и подстраивается под новые голоса, опираясь на всего три секунды эталонного аудио. Задержка достигает 70 миллисекунд в типичной среде при обработке 10-секундного фрагмента речи и 500 символов.

В сравнительных тестах на естественность Voxtral TTS опередила ElevenLabs Flash v2.5 при похожей скорости отклика. Впрочем, ElevenLabs уже выпустили более свежую модель v3. Voxtral доступна через API за 0,016 доллара за 1000 символов, протестировать ее можно в Mistral Studio, а версию с открытыми весами загрузить с Hugging Face.