Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
БАС лишил музыканта Патрика Дарлинга голоса, но ИИ от ElevenLabs позволил воссоздать клон по старым записям и вернуться к композициям. С помощью voice clone и музыкального генератора он сочинил песню и впервые за два года выступил на сцене с группой. Технология уже помогает жертвам БМН и других болезней творчески самовыражаться.
Apple заключила многолетнюю сделку с Google, чтобы использовать модели Gemini в AI-функциях, включая Siri, из-за накопившихся проблем в ее архитектуре. Компания тратит более миллиарда долларов в год на это партнерство и параллельно разрабатывает собственную модель с триллионом параметров. Такие шаги помогут преодолеть технические ограничения текущей системы Siri.
Resemble AI представила открытую модель Chatterbox Turbo для синтеза речи, которая клонирует голоса за пять секунд аудио. Она опережает ElevenLabs и Cartesia по качеству и скорости — первый вывод меньше 150 мс, плюс водяной знак PerTh. Модель под MIT-лицензией доступна на GitHub и платформах вроде Hugging Face для любых проектов.
Google интегрирует модель Gemini в Google Translate для улучшения текстовых переводов и запускает бета-версию живого голосового перевода через наушники. Новая функция сохраняет тон и ритм речи говорящего.
На NeurIPS Nvidia представила Alpamayo-R1 для анализа трафика с помощью пошагового мышления и MultiTalker для разделения речей нескольких людей. Эти модели улучшают автономное вождение и обработку разговоров. Код Alpamayo-R1 открыт для некоммерческого использования, а также показаны инструменты для роботов.
Статья обзорно описывает модели ИИ для обработки аудио, их типы и применения в реальных сценариях. Рассматриваются причины важности аудиомоделей, включая их роль в мультимодальном ИИ и преимущества прямого анализа. Особое внимание уделено задачам преобразования речи в текст, текста в речь и речи в речь, с примерами использования в повседневных задачах.
Семейство моделей Gemini 2.0 Flash и Flash-Lite теперь общедоступно, предлагая улучшенную производительность и упрощенное ценообразование для задач с длинным контекстом. Разработчики используют эти модели для создания голосовых ассистентов, анализа данных и редактирования видео, достигая значительного снижения затрат и времени. Примеры от компаний Daily, Dawn и Mosaic демонстрируют практическое применение в реальных проектах.
Bee — носимое ИИ-устройство от Amazon — упрощает запись и анализ бесед, разбивая их на сегменты с краткими пересказами. Оно интегрируется с Google-сервисами для задач, хранит воспоминания и факты о пользователе, но удаляет аудио после обработки и требует разрешения на запись. Пока идея повседневного использования вызывает вопросы о приватности и культурных нормах.
Стартап Subtle запустил беспроводные наушники Voicebuds с технологией изоляции голоса для звонков и заметок в шумных условиях. Устройство обещает в пять раз меньше ошибок транскрипции, чем AirPods Pro 3 с OpenAI, и интегрируется с iOS-приложением для голосового ввода без клавиш. Доступны предзаказы за 199 долларов с годовой подпиской.
Alibaba Cloud представила модели Qwen3-TTS-VD-Flash для генерации голосов по описанию и Qwen3-TTS-VC-Flash для клонирования голоса с трех секунд аудио на десяти языках. Они превосходят конкурентов вроде OpenAI и Elevenlabs по качеству и точности. Доступны через API и демо на Hugging Face.
В Канзасе женщина получила голосовое сообщение с голосом своей матери, которое оказалось сгенерировано ИИ. Этот случай показывает новые методы мошенничества и важность проверки информации.
Speechify расширяет свое расширение для Chrome, добавляя голосовой ввод текста и разговорного ассистента для вопросов о веб-страницах. Инструмент поддерживает английский, исправляет ошибки и учится на использовании, хотя пока уступает конкурентам по точности. В будущем функции появятся в других приложениях, а также планируется разработка агентов для автоматизации задач вроде звонков.
В Индии AI-стартапы, такие как Equal AI и SpiderX AI, разрабатывают системы для борьбы со спам-звонками и мошенничеством с использованием дипфейков. Эти технологии анализируют разговоры в реальном времени и помогают пользователям избегать обмана. Однако растущие угрозы от ИИ-мошенников требуют постоянного развития защитных механизмов.
Показаны все статьи (13)