Французский стартап Mistral представил Voxtral TTS — первую модель синтеза речи из текста. Она работает с девятью языками, включая немецкий, английский, французский и испанский, при этом остается компактной — всего четыре миллиарда параметров. Разработчики подчеркивают: Voxtral создает реалистичную речь с эмоциональной выразительностью и подстраивается под новые голоса, опираясь на всего три секунды эталонного аудио. Задержка достигает 70 миллисекунд в типичной среде при обработке 10-секундного фрагмента речи и 500 символов.
В сравнительных тестах на естественность Voxtral TTS опередила ElevenLabs Flash v2.5 при похожей скорости отклика. Впрочем, ElevenLabs уже выпустили более свежую модель v3. Voxtral доступна через API за 0,016 доллара за 1000 символов, протестировать ее можно в Mistral Studio, а версию с открытыми весами загрузить с Hugging Face.