PersonaPlex: запуск ИИ речь-в-речь локально на ПК

Руководство объясняет установку PersonaPlex от NVIDIA на Linux для локального запуска полнодуплексной модели ИИ речь-в-речь. Система поддерживает прерывания, естественные диалоги и веб-интерфейс в браузере, модель весит 16.7 ГБ. Доступны пресеты голосов и кастомные шаблоны для общения.

Запуск модели ИИ речь-в-речь в реальном времени локально

Введение

Прежде чем переходить к делу, стоит посмотреть это видео.

Впечатляет, правда? Теперь на собственном компьютере запускается полноценная локальная модель ИИ, с которой можно общаться голосом, и она готова к работе сразу. Разговор ощущается как с реальным собеседником, ведь система одновременно воспринимает речь и генерирует ответы, подобно живому общению.

Это выходит за рамки привычного цикла «говорю — ждет — отвечает». PersonaPlex представляет собой ИИ для разговоров речь-в-речь в реальном времени, способный обрабатывать прерывания, перекрытия реплик и естественные вставки вроде «ух-ху» или «точно» прямо во время беседы.

PersonaPlex построена по полнодуплексному принципу: она воспринимает аудио и синтезирует речь одновременно, без требования ждать паузы от пользователя. Благодаря этому диалоги получаются гораздо естественнее и ближе к человеческим, в отличие от стандартных голосовых помощников.

В этом руководстве разберут настройку окружения под Linux, установку PersonaPlex локально и запуск веб-сервера для общения с ИИ через браузер в реальном времени.

Работа с PersonaPlex локально: пошаговое руководство

Здесь описана последовательность действий по установке PersonaPlex на Linux, запуску веб-интерфейса в реальном времени и общению с полнодуплексной моделью ИИ речь-в-речь прямо на своем оборудовании.

Шаг 1: Принятие условий модели и создание токена

Чтобы скачать и запустить PersonaPlex, сначала нужно согласиться с условиями использования модели на Hugging Face. Модель речи-в-речь PersonaPlex-7B-v1 от NVIDIA закрытая: веса становятся доступны только после принятия лицензии на странице модели.

Перейдите на страницу модели PersonaPlex в Hugging Face и войдите в аккаунт. Там появится уведомление о необходимости поделиться контактными данными и принять лицензионные условия для доступа к файлам. Ознакомьтесь с NVIDIA Open Model License и подтвердите согласие, чтобы разблокировать репозиторий.

После получения доступа создайте токен Hugging Face:

Перейдите в Settings → Access Tokens
Сгенерируйте новый токен с правом Read
Скопируйте токен

Экспортируйте его в терминале:

export HF_TOKEN="YOUR_HF_TOKEN"

Этот токен обеспечит аутентификацию локальной машины и скачивание модели PersonaPlex.

Шаг 2: Установка зависимостей для Linux

До установки PersonaPlex требуется библиотека разработки кодека Opus для аудио. PersonaPlex использует Opus для кодирования и декодирования аудио в реальном времени, поэтому эта зависимость обязательна.

На системах Ubuntu или на базе Debian выполните:

sudo apt update
sudo apt install -y libopus-dev

Шаг 3: Сборка PersonaPlex из исходников

Теперь склонируйте репозиторий PersonaPlex и установите пакет Moshi из исходников.

Склонируйте официальный репозиторий NVIDIA:

git clone https://github.com/NVIDIA/personaplex.git
cd personaplex

В директории проекта установите Moshi:

pip install moshi/.

Это скомпилирует и установит компоненты PersonaPlex вместе со всеми зависимостями, включая PyTorch, библиотеки CUDA, NCCL и инструменты для аудио.

Ожидайте установки пакетов вроде torch, nvidia-cublas-cu12, nvidia-cudnn-cu12, sentencepiece и moshi-personaplex.

Совет: выполняйте в виртуальном окружении на личном компьютере.

Шаг 4: Запуск сервера WebUI

Перед стартом сервера установите ускоренный загрузчик Hugging Face:

pip install hf_transfer

Запустите сервер PersonaPlex в реальном времени:

python -m moshi.server --host 0.0.0.0 --port 8998

При первом запуске скачается полная модель PersonaPlex объемом около 16.7 ГБ. Время зависит от скорости интернета.

После завершения загрузки модель разместится в памяти, и сервер запустится.

Шаг 5: Общение с PersonaPlex в браузере

Сервер работает, пора перейти к разговору с PersonaPlex.

На локальной машине вставьте в браузер: http://localhost:8998.

Загрузится веб-интерфейс.

После открытия страницы:

Выберите голос
Нажмите Connect
Разрешите доступ к микрофону
Начните говорить

Интерфейс предлагает шаблоны бесед. Для демонстрации использовали шаблон Astronaut (fun), чтобы добавить игривости. Можно настроить свой шаблон, изменив начальный системный промт, — это позволит полностью кастомизировать характер и поведение ИИ.

Для голоса выбрали Natural F3 вместо стандартного, чтобы поэкспериментировать.

Общение выходит удивительно естественным.

Можно прерывать речь ИИ.

Задавать уточняющие вопросы.

Менять тему на середине фразы.

ИИ плавно поддерживает поток беседы и отвечает осмысленно в реальном времени. Даже тест в сценарии звонка в банк дал реалистичное впечатление.

В PersonaPlex предусмотрены пресеты голосов:

Естественные (женские): NATF0, NATF1, NATF2, NATF3
Естественные (мужские): NATM0, NATM1, NATM2, NATM3
Разнообразные (женские): VARF0, VARF1, VARF2, VARF3, VARF4
Разнообразные (мужские): VARM0, VARM1, VARM2, VARM3, VARM4

Пробуйте разные голоса, чтобы подобрать под нужный характер. Некоторые звучат разговорнее, другие выразительнее.

Заключение

После полной настройки и реального общения с PersonaPlex становится очевидно одно.

Это ощущается по-новому.

Обычно ИИ работает через чат: печатаешь — отвечает — ждешь. Получается механически.

Речь-в-речь полностью меняет подход.

С локальным PersonaPlex нет нужды дожидаться: прерываешь, корректируешь на лету, уточняешь естественно. Беседа течет свободно, как в жизни.

Именно поэтому речь-в-речь видится будущим ИИ.

Но это лишь часть картины.

Настоящий прорыв случится при интеграции таких систем с агентами и инструментами. Представьте: говорите ИИ «Забронируй билет на пятницу утром», и он проверяет цены акций, совершает сделку, пишет и отправляет email, планирует встречу, генерирует отчет.

Без переключений вкладок, копирования или набора команд.

Просто голосом.

PersonaPlex уже решает сложную задачу естественного полнодуплексного общения. Следующий этап — исполнение: подключение к API, инструментам автоматизации, браузерам, торговым платформам и приложениям продуктивности. Тогда ИИ перестанет быть просто помощником и станет полноценным исполнителем.

В итоге получается система вроде усиленного OpenClaw: не только говорит по-человечески, но и действует от вашего имени в реальном времени.

Запуск PersonaPlex: ИИ речь-в-речь локально