Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
Speechify запустила приложение для Windows с локальными моделями для диктовки, транскрипции и озвучивания текстов на Copilot+ PC. Оно использует VITS Neural, Silero VAD и Whisper, поддерживает 50 млн пользователей. CEO подчеркнул удобство для миллиарда юзеров Windows и корпоративного сектора.
Новостное ИИ-приложение Particle от бывших инженеров Twitter запустило Podcast Clips: функция извлекает релевантные фрагменты из подкастов и добавляет их к новостям в ленте. Пользователи слушают клипы или читают подсвеченные транскрипты, а для персоналий вроде Сэма Альтмана собирается персональный фид выступлений. Вышла подписка Particle+ за $2.99/мес с премиум-опциями и версия для Android.
БАС лишил музыканта Патрика Дарлинга голоса, но ИИ от ElevenLabs позволил воссоздать клон по старым записям и вернуться к композициям. С помощью voice clone и музыкального генератора он сочинил песню и впервые за два года выступил на сцене с группой. Технология уже помогает жертвам БМН и других болезней творчески самовыражаться.
Apple заключила многолетнюю сделку с Google, чтобы использовать модели Gemini в AI-функциях, включая Siri, из-за накопившихся проблем в ее архитектуре. Компания тратит более миллиарда долларов в год на это партнерство и параллельно разрабатывает собственную модель с триллионом параметров. Такие шаги помогут преодолеть технические ограничения текущей системы Siri.
Resemble AI представила открытую модель Chatterbox Turbo для синтеза речи, которая клонирует голоса за пять секунд аудио. Она опережает ElevenLabs и Cartesia по качеству и скорости — первый вывод меньше 150 мс, плюс водяной знак PerTh. Модель под MIT-лицензией доступна на GitHub и платформах вроде Hugging Face для любых проектов.
Google интегрирует модель Gemini в Google Translate для улучшения текстовых переводов и запускает бета-версию живого голосового перевода через наушники. Новая функция сохраняет тон и ритм речи говорящего.
На NeurIPS Nvidia представила Alpamayo-R1 для анализа трафика с помощью пошагового мышления и MultiTalker для разделения речей нескольких людей. Эти модели улучшают автономное вождение и обработку разговоров. Код Alpamayo-R1 открыт для некоммерческого использования, а также показаны инструменты для роботов.
Статья обзорно описывает модели ИИ для обработки аудио, их типы и применения в реальных сценариях. Рассматриваются причины важности аудиомоделей, включая их роль в мультимодальном ИИ и преимущества прямого анализа. Особое внимание уделено задачам преобразования речи в текст, текста в речь и речи в речь, с примерами использования в повседневных задачах.
Google Translate расширил функцию Live Translate на iOS и новые страны вроде Германии и Японии, где она работает с любыми наушниками в 70+ языках. В тот же день вышла глобальная версия Search Live для разговорного поиска с камерой в 200+ странах.
Wispr Flow запустила Android-приложение для ИИ-диктовки с плавающим пузырем для голосового ввода. Оно стало быстрее на 30%, поддерживает 100+ языков и Hinglish, а пользователи уже наговорили 1,3 млн слов. Стартап привлек 81 млн долларов инвестиций при оценке в 700 млн.
Bee — носимое ИИ-устройство от Amazon — упрощает запись и анализ бесед, разбивая их на сегменты с краткими пересказами. Оно интегрируется с Google-сервисами для задач, хранит воспоминания и факты о пользователе, но удаляет аудио после обработки и требует разрешения на запись. Пока идея повседневного использования вызывает вопросы о приватности и культурных нормах.
Стартап Subtle запустил беспроводные наушники Voicebuds с технологией изоляции голоса для звонков и заметок в шумных условиях. Устройство обещает в пять раз меньше ошибок транскрипции, чем AirPods Pro 3 с OpenAI, и интегрируется с iOS-приложением для голосового ввода без клавиш. Доступны предзаказы за 199 долларов с годовой подпиской.
Alibaba Cloud представила модели Qwen3-TTS-VD-Flash для генерации голосов по описанию и Qwen3-TTS-VC-Flash для клонирования голоса с трех секунд аудио на десяти языках. Они превосходят конкурентов вроде OpenAI и Elevenlabs по качеству и точности. Доступны через API и демо на Hugging Face.
В Канзасе женщина получила голосовое сообщение с голосом своей матери, которое оказалось сгенерировано ИИ. Этот случай показывает новые методы мошенничества и важность проверки информации.
Speechify расширяет свое расширение для Chrome, добавляя голосовой ввод текста и разговорного ассистента для вопросов о веб-страницах. Инструмент поддерживает английский, исправляет ошибки и учится на использовании, хотя пока уступает конкурентам по точности. В будущем функции появятся в других приложениях, а также планируется разработка агентов для автоматизации задач вроде звонков.
В Индии AI-стартапы, такие как Equal AI и SpiderX AI, разрабатывают системы для борьбы со спам-звонками и мошенничеством с использованием дипфейков. Эти технологии анализируют разговоры в реальном времени и помогают пользователям избегать обмана. Однако растущие угрозы от ИИ-мошенников требуют постоянного развития защитных механизмов.