
Компания Speechify, занимающаяся голосовыми решениями на базе ИИ, выпустила родное приложение для Windows. Оно применяет локально хранимые модели, чтобы обеспечивать диктовку в любых программах и озвучивать статьи, документы или PDF-файлы из библиотеки голосов.
Speechify выходит на рынок, где уже работают Wispr Flow, Willow и Superwhisper с похожими инструментами для диктовки и распознавания речи на разных платформах.
Приложение полностью обрабатывает голос на устройстве — это касается Copilot+ PC с NPU от AMD, Intel и Qualcomm, а также ПК под Windows 11 с графическими ускорителями от Intel и AMD.
На устройстве запущены три модели: нейронный синтез речи, обнаружение голосовой активности в реальном времени и транскрипция на базе Whisper. Пользователи сами настраивают переход на облачные варианты или меняют модели прямо во время работы.
Сервис насчитывает свыше 50 миллионов пользователей. Модель VITS Neural создает аудио в семи режимах скорости, чтобы приложение могло проговаривать документы или веб-страницы. Для распознавания голосовой активности задействована открытая модель Silero.
«Более миллиарда человек по всему миру работают с Windows. Запуск на этой платформе помогает преодолеть любые преграды для чтения и создания текстов независимо от устройства и привычек пользователя. Мы особенно ждем отклика от корпоративных клиентов — многие специалисты давно просили добавить Speechify на свои ПК», — отметил Клифф Вейцман, основатель и CEO Speechify.
Недавно компания ввела функцию транскрипции встреч в стиле Granola, но она работала только в браузере. Теперь, с появлением нативных приложений на всех платформах, такую возможность, скорее всего, интегрируют везде — для записи встреч из любых программ или браузеров.
Ранее Speechify сосредоточивалась на синтезе речи: чтение статей, писем и создание подкастов из документов. В последнее время сервис превращается в комплексную голосовую платформу с добавлением диктовки, распознавания встреч и голосового помощника.