Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

Nvidia открыла PersonaPlex: голосовой ИИ без пауз

Nvidia выпустила открытую модель PersonaPlex для голосовых диалогов без пауз: она слушает и отвечает одновременно, с голосами и ролями на выбор. Модель обходит конкурентов в тестах на естественность и задержки, обучена на реальных и синтетических данных. Код доступен на Hugging Face и GitHub.

26 января 2026 г.
5 мин
20

Nvidia представила PersonaPlex — модель разговорного ИИ, которая обеспечивает естественные диалоги в реальном времени с голосами на выбор и ролями по описанию пользователя.

Классические голосовые помощники обрабатывают распознавание речи, языковую модель и синтез по очереди. Такое последовательное выполнение позволяет настраивать голос и роль, но приводит к неестественным разговорам с паузами, похожими на роботизированные. Более свежие разработки вроде Moshi от французской лаборатории Kyutai приближают общение к живому, однако привязывают пользователей к одному голосу и роли.

PersonaPlex, по словам Nvidia, объединяет преимущества подходов: можно выбрать голос из вариантов и задать любую роль текстовым промтом — от мудрого советника и агента поддержки до персонажа из фэнтези. Подробнее в исследовании Nvidia.

Полнодуплексный звук избавляет от неловких пауз

PersonaPlex одновременно слушает и говорит. Помимо содержания речи модель осваивает нюансы общения: когда остановиться, когда вмешаться или издать подтверждающие звуки вроде "ух-хух". Она корректирует внутреннее состояние прямо во время речи собеседника и мгновенно передает ответ в стриме.

Тесты показали задержку в 0,07 секунды при смене говорящего, как указано в технической статье, — против 1,3 секунды у Google Gemini Live. Модель опирается на Moshi, содержит 7 миллиардов параметров и работает с частотой дискретизации аудио 24 кГц.

Гибридные промты разделяют управление голосом и ролью

Ключевое новшество — гибридный системный промт из двух частей: короткого аудиосэмпла, который фиксирует тембр и манеру речи, плюс текстового описания роли, предыстории и условий диалога. Их совместная обработка формирует цельную личность.

Разработчики показали возможности на примерах. В сценарии банковской поддержки ИИ проверяет личность клиента, разбирает отказ в транзакции, проявляет сочувствие и корректирует акцент. В кабинете врача модель фиксирует данные пациента: имя, дату рождения, аллергии на лекарства.

В случае чрезвычайной ситуации на космодроме PersonaPlex выступает астронавтом во время аварии с расплавлением активной зоны реактора на миссии к Марсу. Модель держит образ, передает стресс и срочность в интонациях, оперирует специализированной терминологией кризисного управления, хотя таких данных в обучении не было.

Сочетание реальных и синтетических данных решает проблему дефицита

Основная трудность — отсутствие речевых записей с разнообразными темами и естественными элементами вроде прерываний. Команда преодолела это, комбинируя настоящие диалоги и искусственно созданные.

Для опубликованной модели использовали 7303 реальных разговора из корпуса Fisher English, суммарно 1217 часов, с аннотациями промтами разной детализации. Кроме того, сгенерировали 39322 диалога ассистента и 105410 бесед в службе поддержки. Тексты подготовили с помощью Qwen3-32B от Alibaba и GPT-OSS-120B от OpenAI, а речь синтезировал Chatterbox TTS от Resemble AI.

Синтетика передала знания по задачам и выполнению инструкций, а реальные записи обеспечили естественность речи.

PersonaPlex лидирует над коммерческими и открытыми аналогами в тестах

Для проверки расширили стандартный бенчмарк полнодуплексных систем новым набором service-duplex: 350 вопросов поддержки в 50 сценариях ролей. PersonaPlex набрала средний балл по естественности диалога 3,90 по Mean Opinion Score — выше, чем 3,72 у Gemini Live, 3,70 у Qwen 2.5 Omni и 3,11 у Moshi.

Модель достигла сходства голоса 0,57 при клонировании, в то время как Gemini, Qwen и Moshi близки к нулю. Успех плавных смен говорящих — 99,2%, прерывания пользователя обрабатываются безупречно. По мнению авторов, это первая открытая модель, сравнимая по естественности с закрытыми коммерческими системами.

Обучение заняло шесть часов на восьми GPU A100. Nvidia выложила код и веса модели на Hugging Face и GitHub под лицензиями MIT и Nvidia Open Model License — коммерческое применение разрешено, права на выводы не требуются. Пока поддержка только английского. В планах — дообучение для выравнивания и интеграция инструментов.