Стартап Resemble AI выходит в конкуренцию с ElevenLabs благодаря модели «Chatterbox Turbo» — открытой системе синтеза речи, которая воспроизводит голос по всего пяти секундам аудио. Разработчики уверяют: их решение превосходит ElevenLabs и Cartesia по естественности звучания, при этом выдаёт начальный аудиофрагмент за менее 150 миллисекунд. Благодаря такой оперативности модель подойдёт для разработки чат-ботов с мгновенными ответами, сервисов поддержки пользователей, игровых проектов, цифровых аватаров и платформ для общения. Предприятиям из строгих отраслей поможет водяной знак «PerTh», встроенный в модель для доказательства искусственного происхождения речи.
Resemble AI выложила Chatterbox Turbo под лицензией MIT — любой может брать её в использование, дорабатывать или делиться, в том числе в коммерческих целях. Попробовать модель предлагают на Hugging Face, RunPod, Modal, Replicate и Fal, а полный код доступен на GitHub. Resemble AI также запустила облачную версию сервиса, а скоро появится вариант с минимальной задержкой.