Mistral AI выпустила Voxtral TTS с клонированием голоса

Mistral AI представила Voxtral TTS — открытую модель TTS с 4 млрд параметров для 9 языков. Она клонирует голос за 3 секунды аудио, обеспечивает задержку 70 мс и RTF 9.7x. Подходит для реального времени в агентах, поддержке и локализации.

Открытая модель Voxtral TTS для преобразования текста в речь

Введение

Приложения с голосовым управлением окружают нас повсюду — от виртуальных помощников до чат-ботов для обслуживания клиентов. Однако разработчикам часто приходится выбирать между дорогими облачными сервисами или синтезом речи, который звучит неестественно и механически.

Mistral AI меняет ситуацию с помощью Voxtral TTS. Это мощная открытая модель преобразования текста в речь, которую можно запускать на собственном оборудовании. Выпущенная 26 марта 2026 года, она содержит 4 миллиарда параметров, создает реалистичную речь на девяти языках и подстраивается под новый голос всего за 3 секунды референсного аудио.

В этом руководстве по Voxtral TTS разберем принципы работы модели, ее преимущества в клонировании голоса и низкой задержке, а также покажем, как генерировать речь несколькими строками Python-кода.

Что такое Voxtral TTS?

Voxtral TTS — дебютная модель синтеза речи от Mistral AI. В отличие от коммерческих сервисов, привязанных к облаку, она доступна с открытыми весами. Модель скачивается и работает полностью на вашей инфраструктуре, обеспечивая контроль над данными, расходами и настройками.

Основа — архитектура Ministral 3B от Mistral, что позволяет запускать ее на обычных ноутбуках и устройствах на краю сети. По данным Mistral, Voxtral TTS обеспечивает качество на уровне лидеров рынка по результатам тестов с участием людей.

Open Weight vs. Open Source

Открытые веса отличаются от полностью открытого кода. Voxtral TTS предоставляет доступ к обученным весам модели для исследований и личных проектов по лицензии CC BY-NC 4.0. Для коммерческого применения нужна отдельная лицензия или платный API от Mistral.

Ключевые возможности

Модель предлагает набор функций для реальных голосовых задач:

Клонирование голоса по 3 секундам референсного аудио.
Низкая задержка: 70 мс на модель и около 100 мс до первого звука.
Реал-тайм фактор (RTF) 9.7x — 10 секунд речи за 1,6 секунды.
Поддержка 9 языков: английский, французский, немецкий, испанский, нидерландский, португальский, итальянский, хинди, арабский.
4 миллиарда параметров.
Открытые веса по CC BY-NC 4.0 для некоммерческого использования, API для бизнеса, встроенная поддержка потокового вывода с низкой задержкой.

Клонирование голоса по 3 секундам аудио

Одна из сильных сторон Voxtral TTS — нулевое клонирование голоса. Классические системы требуют 30 секунд аудио или больше, а эта модель справляется с 3 секундами.

Модель анализирует уникальные черты говорящего — акцент, интонацию, ритм, эмоциональный оттенок — и применяет их к новому тексту. Это работает на всех девяти языках, позволяя создать многоязычный клон голоса, сохраняющий идентичность.

Сравнение Voxtral TTS с ElevenLabs

В слепых тестах с носителями языков Voxtral TTS обошла ElevenLabs Flash v2.5 с результатом 68.4% побед.

Язык	Процент побед над ElevenLabs Flash v2.5
Испанский	87.8%
Хинди	79.8%
Португальский	74.4%
Арабский	72.9%
Немецкий	72.0%
Английский	60.8%
Итальянский	57.1%
Французский	54.4%
Нидерландский	49.4%

Задержка для разговоров в реальном времени

Для голосовых агентов и интерактивных приложений важна скорость. Даже 200–300 мс паузы делают диалог неестественным.

Voxtral TTS оптимизирована для потокового вывода с низкой задержкой. Официальные данные Mistral:

70 мс задержки модели для 10 секунд аудио и 500 символов текста.
~100 мс до первого звука (TTFA).
RTF 9.7x — генерация в 9,7 раза быстрее реального времени.

Например, 10-секундный фрагмент создается за чуть больше секунды. Это подходит для:

Разговорных ИИ-агентов.
Систем поддержки клиентов в реальном времени.
Инструментов перевода на лету.
Голосовых устройств IoT.

Модель генерирует до 2 минут непрерывного аудио без пауз.

Что значит реал-тайм фактор

RTF показывает скорость генерации относительно длительности аудио. RTF 1.0 — время равно длине. RTF 9.7x — 10 секунд аудио за ~1,03 секунды.

Как работает Voxtral TTS

Гибридный подход сочетает два этапа:

Генерация семантических токенов. Модель создает токены, отражающие смысл и структуру текста, как языковая модель.
Flow matching для акустических токенов. Семантические токены преобразуются в акустические, соответствующие звуковым волнам речи.

Оба типа токенов обрабатываются Voxtral Codec — собственным токенизатором речи с гибридной векторной квантизацией (VQ-FSQ).

Разделение контента (что сказать) и стиля (как сказать) позволяет клонировать голос: модель извлекает стиль из короткого сэмпла и применяет к тексту.

Подробности в статье Voxtral TTS на arXiv.

Установка и запуск

Доступны два варианта:

API Mistral — просто для тестов и бизнеса.
Самостоятельный хостинг с открытыми весами — полный контроль, бесплатно для некоммерции.

Требования:

Базовые навыки Python и командной строки.
Python 3.10+.
pip.
Для хостинга: NVIDIA GPU (рекомендуется 8 ГБ VRAM) или Mac на Apple Silicon.

Вариант 1: API Mistral

Установите клиент:

pip install mistralai

Генерация речи:

from mistralai import Mistral
api_key = "your-api-key"  # Из console.mistral.ai
client = Mistral(api_key=api_key)
response = client.audio.speech.create(
    model="voxtral-tts-26-03",
    input="Hello, world! This is a test of Voxtral TTS.",
    voice="alloy",  # Или кастомный голос
)
# Сохранение аудио
with open("output.wav", "wb") as f:
    f.write(response.audio)

Стоимость API — $0.016 за 1000 символов. Тестируйте бесплатно в Mistral Studio.

Вариант 2: Самостоятельный хостинг

Скачайте веса с Hugging Face (лицензия CC BY-NC 4.0). Популярна реализация voxtral-int4 с int4-квантизацией:

Генерация речи в 4.6x реального времени.
3.7 ГБ VRAM на RTX 3090.
Снижение VRAM на 54% по сравнению с полной точностью.

Клонирование кастомного голоса: пример

Пример с API Mistral:

from mistralai import Mistral
api_key = "your-api-key"
client = Mistral(api_key=api_key)
# Шаг 1: Загрузка референсного аудио (3+ секунды)
reference_audio_path = "my_voice_sample.wav"
# Шаг 2: Чтение файла
with open(reference_audio_path, "rb") as f:
    audio_content = f.read()
# Шаг 3: Генерация
response = client.audio.speech.create(
    model="voxtral-tts-26-03",
    input="This is my voice, cloned from just a few seconds of audio.",
    voice=audio_content,  # Референсное аудио
)
# Сохранение
with open("cloned_voice_output.wav", "wb") as f:
    f.write(response.audio)

Референс должен быть четким, без шума, минимум 3 секунды. Дольше (до 25 секунд) — лучше качество.

Применение

Голосовые помощники и чат-боты. Задержка ~100 мс TTFA делает диалоги естественными. Самохостинг избегает сетевых расходов облака.
Многоязычная поддержка клиентов. Девять языков плюс кросс-языковое клонирование — один голос для мира. Например, английская речь с французским акцентом.
Локализация контента. Перевод и озвучка видео, подкастов, курсов с сохранением голоса спикера на разных языках.
Инструменты доступности. Скрины и ассисты с выразительными голосами на выбор.
Игры и интерактив. Динамический диалог персонажей в реальном времени по выбору игрока.

Лицензия и развертывание

Открытые веса (CC BY-NC 4.0)

Разрешено: исследования, личные проекты, академия, внутренние тесты.
Запрещено: коммерческие продукты, монетизация, перераспространение для бизнеса.
Обязательна атрибуция Mistral AI.

Коммерческое использование

Варианты:

API Mistral — $0.016 за 1000 символов.
Корпоративная лицензия — обращайтесь в Mistral.

Для больших объемов самохостинг с лицензией выгоднее. Для малого/среднего — API проще.

Заключение

Voxtral TTS делает профессиональный синтез речи доступным разработчикам. Клонирование за 3 секунды, 70 мс задержка, RTF 9.7x — идеально для разговорных приложений.

API упрощает старт, самохостинг дает контроль — выбирайте под проект.

Открытая Voxtral TTS: синтез речи от Mistral AI