Открытая TTS-модель Chatterbox Turbo от Resemble AI

Resemble AI представила открытую модель Chatterbox Turbo для синтеза речи, которая клонирует голоса за пять секунд аудио. Она опережает ElevenLabs и Cartesia по качеству и скорости — первый вывод меньше 150 мс, плюс водяной знак PerTh. Модель под MIT-лицензией доступна на GitHub и платформах вроде Hugging Face для любых проектов.

Стартап Resemble AI выходит в конкуренцию с ElevenLabs благодаря модели «Chatterbox Turbo» — открытой системе синтеза речи, которая воспроизводит голос по всего пяти секундам аудио. Разработчики уверяют: их решение превосходит ElevenLabs и Cartesia по естественности звучания, при этом выдаёт начальный аудиофрагмент за менее 150 миллисекунд. Благодаря такой оперативности модель подойдёт для разработки чат-ботов с мгновенными ответами, сервисов поддержки пользователей, игровых проектов, цифровых аватаров и платформ для общения. Предприятиям из строгих отраслей поможет водяной знак «PerTh», встроенный в модель для доказательства искусственного происхождения речи.

Resemble AI выложила Chatterbox Turbo под лицензией MIT — любой может брать её в использование, дорабатывать или делиться, в том числе в коммерческих целях. Попробовать модель предлагают на Hugging Face, RunPod, Modal, Replicate и Fal, а полный код доступен на GitHub. Resemble AI также запустила облачную версию сервиса, а скоро появится вариант с минимальной задержкой.

Chatterbox Turbo: клонирование голоса за 5 секунд

Горячее

7 лучших альтернатив Claude Code для агентного кодинга в CLI

Anthropic запустила Opus 5: более дешёвая и мощная ИИ-модель

Runway запустила Media Router — ИИ-роутер для генеративных медиа

Anthropic добавила Opus и Sonnet в голосовой режим Claude

OpenAI добавила голосовое управление в ChatGPT для ПК

Сейчас в тренде