Nvidia представила PersonaPlex — модель разговорного ИИ, которая обеспечивает естественные диалоги в реальном времени с голосами на выбор и ролями по описанию пользователя.
Классические голосовые помощники обрабатывают распознавание речи, языковую модель и синтез по очереди. Такое последовательное выполнение позволяет настраивать голос и роль, но приводит к неестественным разговорам с паузами, похожими на роботизированные. Более свежие разработки вроде Moshi от французской лаборатории Kyutai приближают общение к живому, однако привязывают пользователей к одному голосу и роли.
PersonaPlex, по словам Nvidia, объединяет преимущества подходов: можно выбрать голос из вариантов и задать любую роль текстовым промтом — от мудрого советника и агента поддержки до персонажа из фэнтези. Подробнее в исследовании Nvidia.
Полнодуплексный звук избавляет от неловких пауз
PersonaPlex одновременно слушает и говорит. Помимо содержания речи модель осваивает нюансы общения: когда остановиться, когда вмешаться или издать подтверждающие звуки вроде "ух-хух". Она корректирует внутреннее состояние прямо во время речи собеседника и мгновенно передает ответ в стриме.
Тесты показали задержку в 0,07 секунды при смене говорящего, как указано в технической статье, — против 1,3 секунды у Google Gemini Live. Модель опирается на Moshi, содержит 7 миллиардов параметров и работает с частотой дискретизации аудио 24 кГц.
Гибридные промты разделяют управление голосом и ролью
Ключевое новшество — гибридный системный промт из двух частей: короткого аудиосэмпла, который фиксирует тембр и манеру речи, плюс текстового описания роли, предыстории и условий диалога. Их совместная обработка формирует цельную личность.
Разработчики показали возможности на примерах. В сценарии банковской поддержки ИИ проверяет личность клиента, разбирает отказ в транзакции, проявляет сочувствие и корректирует акцент. В кабинете врача модель фиксирует данные пациента: имя, дату рождения, аллергии на лекарства.
В случае чрезвычайной ситуации на космодроме PersonaPlex выступает астронавтом во время аварии с расплавлением активной зоны реактора на миссии к Марсу. Модель держит образ, передает стресс и срочность в интонациях, оперирует специализированной терминологией кризисного управления, хотя таких данных в обучении не было.
Сочетание реальных и синтетических данных решает проблему дефицита
Основная трудность — отсутствие речевых записей с разнообразными темами и естественными элементами вроде прерываний. Команда преодолела это, комбинируя настоящие диалоги и искусственно созданные.
Для опубликованной модели использовали 7303 реальных разговора из корпуса Fisher English, суммарно 1217 часов, с аннотациями промтами разной детализации. Кроме того, сгенерировали 39322 диалога ассистента и 105410 бесед в службе поддержки. Тексты подготовили с помощью Qwen3-32B от Alibaba и GPT-OSS-120B от OpenAI, а речь синтезировал Chatterbox TTS от Resemble AI.
Синтетика передала знания по задачам и выполнению инструкций, а реальные записи обеспечили естественность речи.
PersonaPlex лидирует над коммерческими и открытыми аналогами в тестах
Для проверки расширили стандартный бенчмарк полнодуплексных систем новым набором service-duplex: 350 вопросов поддержки в 50 сценариях ролей. PersonaPlex набрала средний балл по естественности диалога 3,90 по Mean Opinion Score — выше, чем 3,72 у Gemini Live, 3,70 у Qwen 2.5 Omni и 3,11 у Moshi.
Модель достигла сходства голоса 0,57 при клонировании, в то время как Gemini, Qwen и Moshi близки к нулю. Успех плавных смен говорящих — 99,2%, прерывания пользователя обрабатываются безупречно. По мнению авторов, это первая открытая модель, сравнимая по естественности с закрытыми коммерческими системами.
Обучение заняло шесть часов на восьми GPU A100. Nvidia выложила код и веса модели на Hugging Face и GitHub под лицензиями MIT и Nvidia Open Model License — коммерческое применение разрешено, права на выводы не требуются. Пока поддержка только английского. В планах — дообучение для выравнивания и интеграция инструментов.