Mistral выпустила Voxtral TTS: клонирует голоса за 3 секунды

Voxtral от Mistral: первая открытая TTS-модель клонирует голоса за 3 секунды

Французский стартап Mistral представил Voxtral TTS — первую модель text-to-speech с открытыми весами, поддерживающую девять языков и клонирующую голоса с трех секунд аудио. Она компактна (4 млрд параметров), имеет задержку 70 мс и в тестах естественнее ElevenLabs Flash v2.5. Доступна через API и на Hugging Face.

26 марта 2026 г.

1 мин

Французский стартап Mistral представил Voxtral TTS — первую модель синтеза речи из текста. Она работает с девятью языками, включая немецкий, английский, французский и испанский, при этом остается компактной — всего четыре миллиарда параметров. Разработчики подчеркивают: Voxtral создает реалистичную речь с эмоциональной выразительностью и подстраивается под новые голоса, опираясь на всего три секунды эталонного аудио. Задержка достигает 70 миллисекунд в типичной среде при обработке 10-секундного фрагмента речи и 500 символов.

В сравнительных тестах на естественность Voxtral TTS опередила ElevenLabs Flash v2.5 при похожей скорости отклика. Впрочем, ElevenLabs уже выпустили более свежую модель v3. Voxtral доступна через API за 0,016 доллара за 1000 символов, протестировать ее можно в Mistral Studio, а версию с открытыми весами загрузить с Hugging Face.

Voxtral от Mistral: первая открытая TTS-модель клонирует голоса за 3 секунды

Горячее

Тревожный сигнал: реальная цена ИИ от Google и Amazon

Alibaba запрещает сотрудникам использовать Claude Code

Последний экзамен человечества — отвлекающий манёвр?

Gemini Spark от Google теперь доступен на Mac

Anthropic представила Claude Science — ИИ-помощника для учёных

Сейчас в тренде