Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Статьи

Запуск PersonaPlex: ИИ речь-в-речь локально

Руководство объясняет установку PersonaPlex от NVIDIA на Linux для локального запуска полнодуплексной модели ИИ речь-в-речь. Система поддерживает прерывания, естественные диалоги и веб-интерфейс в браузере, модель весит 16.7 ГБ. Доступны пресеты голосов и кастомные шаблоны для общения.

11 марта 2026 г.
8 мин
35
Запуск модели ИИ речь-в-речь в реальном времени локально

Введение

Прежде чем переходить к делу, стоит посмотреть это видео.

Впечатляет, правда? Теперь на собственном компьютере запускается полноценная локальная модель ИИ, с которой можно общаться голосом, и она готова к работе сразу. Разговор ощущается как с реальным собеседником, ведь система одновременно воспринимает речь и генерирует ответы, подобно живому общению.

Это выходит за рамки привычного цикла «говорю — ждет — отвечает». PersonaPlex представляет собой ИИ для разговоров речь-в-речь в реальном времени, способный обрабатывать прерывания, перекрытия реплик и естественные вставки вроде «ух-ху» или «точно» прямо во время беседы.

PersonaPlex построена по полнодуплексному принципу: она воспринимает аудио и синтезирует речь одновременно, без требования ждать паузы от пользователя. Благодаря этому диалоги получаются гораздо естественнее и ближе к человеческим, в отличие от стандартных голосовых помощников.

В этом руководстве разберут настройку окружения под Linux, установку PersonaPlex локально и запуск веб-сервера для общения с ИИ через браузер в реальном времени.

Работа с PersonaPlex локально: пошаговое руководство

Здесь описана последовательность действий по установке PersonaPlex на Linux, запуску веб-интерфейса в реальном времени и общению с полнодуплексной моделью ИИ речь-в-речь прямо на своем оборудовании.

Шаг 1: Принятие условий модели и создание токена

Чтобы скачать и запустить PersonaPlex, сначала нужно согласиться с условиями использования модели на Hugging Face. Модель речи-в-речь PersonaPlex-7B-v1 от NVIDIA закрытая: веса становятся доступны только после принятия лицензии на странице модели.

Перейдите на страницу модели PersonaPlex в Hugging Face и войдите в аккаунт. Там появится уведомление о необходимости поделиться контактными данными и принять лицензионные условия для доступа к файлам. Ознакомьтесь с NVIDIA Open Model License и подтвердите согласие, чтобы разблокировать репозиторий.

После получения доступа создайте токен Hugging Face:

  1. Перейдите в Settings → Access Tokens
  2. Сгенерируйте новый токен с правом Read
  3. Скопируйте токен

Экспортируйте его в терминале:

export HF_TOKEN="YOUR_HF_TOKEN"

Этот токен обеспечит аутентификацию локальной машины и скачивание модели PersonaPlex.

Шаг 2: Установка зависимостей для Linux

До установки PersonaPlex требуется библиотека разработки кодека Opus для аудио. PersonaPlex использует Opus для кодирования и декодирования аудио в реальном времени, поэтому эта зависимость обязательна.

На системах Ubuntu или на базе Debian выполните:

sudo apt update
sudo apt install -y libopus-dev

Шаг 3: Сборка PersonaPlex из исходников

Теперь склонируйте репозиторий PersonaPlex и установите пакет Moshi из исходников.

Склонируйте официальный репозиторий NVIDIA:

git clone https://github.com/NVIDIA/personaplex.git
cd personaplex

В директории проекта установите Moshi:

pip install moshi/.

Это скомпилирует и установит компоненты PersonaPlex вместе со всеми зависимостями, включая PyTorch, библиотеки CUDA, NCCL и инструменты для аудио.

Ожидайте установки пакетов вроде torch, nvidia-cublas-cu12, nvidia-cudnn-cu12, sentencepiece и moshi-personaplex.

Совет: выполняйте в виртуальном окружении на личном компьютере.

Шаг 4: Запуск сервера WebUI

Перед стартом сервера установите ускоренный загрузчик Hugging Face:

pip install hf_transfer

Запустите сервер PersonaPlex в реальном времени:

python -m moshi.server --host 0.0.0.0 --port 8998

При первом запуске скачается полная модель PersonaPlex объемом около 16.7 ГБ. Время зависит от скорости интернета.

Запуск модели ИИ речь-в-речь в реальном времени локально

После завершения загрузки модель разместится в памяти, и сервер запустится.

Запуск модели ИИ речь-в-речь в реальном времени локально

Шаг 5: Общение с PersonaPlex в браузере

Сервер работает, пора перейти к разговору с PersonaPlex.

На локальной машине вставьте в браузер: http://localhost:8998.

Загрузится веб-интерфейс.

После открытия страницы:

  1. Выберите голос
  2. Нажмите Connect
  3. Разрешите доступ к микрофону
  4. Начните говорить

Интерфейс предлагает шаблоны бесед. Для демонстрации использовали шаблон Astronaut (fun), чтобы добавить игривости. Можно настроить свой шаблон, изменив начальный системный промт, — это позволит полностью кастомизировать характер и поведение ИИ.

Для голоса выбрали Natural F3 вместо стандартного, чтобы поэкспериментировать.

Запуск модели ИИ речь-в-речь в реальном времени локально

Общение выходит удивительно естественным.

Можно прерывать речь ИИ.

Задавать уточняющие вопросы.

Менять тему на середине фразы.

ИИ плавно поддерживает поток беседы и отвечает осмысленно в реальном времени. Даже тест в сценарии звонка в банк дал реалистичное впечатление.

Запуск модели ИИ речь-в-речь в реальном времени локально

В PersonaPlex предусмотрены пресеты голосов:

  • Естественные (женские): NATF0, NATF1, NATF2, NATF3
  • Естественные (мужские): NATM0, NATM1, NATM2, NATM3
  • Разнообразные (женские): VARF0, VARF1, VARF2, VARF3, VARF4
  • Разнообразные (мужские): VARM0, VARM1, VARM2, VARM3, VARM4

Пробуйте разные голоса, чтобы подобрать под нужный характер. Некоторые звучат разговорнее, другие выразительнее.

Заключение

После полной настройки и реального общения с PersonaPlex становится очевидно одно.

Это ощущается по-новому.

Обычно ИИ работает через чат: печатаешь — отвечает — ждешь. Получается механически.

Речь-в-речь полностью меняет подход.

С локальным PersonaPlex нет нужды дожидаться: прерываешь, корректируешь на лету, уточняешь естественно. Беседа течет свободно, как в жизни.

Именно поэтому речь-в-речь видится будущим ИИ.

Но это лишь часть картины.

Настоящий прорыв случится при интеграции таких систем с агентами и инструментами. Представьте: говорите ИИ «Забронируй билет на пятницу утром», и он проверяет цены акций, совершает сделку, пишет и отправляет email, планирует встречу, генерирует отчет.

Без переключений вкладок, копирования или набора команд.

Просто голосом.

PersonaPlex уже решает сложную задачу естественного полнодуплексного общения. Следующий этап — исполнение: подключение к API, инструментам автоматизации, браузерам, торговым платформам и приложениям продуктивности. Тогда ИИ перестанет быть просто помощником и станет полноценным исполнителем.

В итоге получается система вроде усиленного OpenClaw: не только говорит по-человечески, но и действует от вашего имени в реальном времени.

Горячее

Загружаем популярные статьи...