Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
YouTube расширяет экспериментальный разговорный ИИ на смарт-ТВ, консоли и стриминговые девайсы, позволяя задавать вопросы о видео без паузы. Функция доступна ограниченной аудитории на пяти языках, на фоне роста доли платформы до 12,4% ТВ-времени. Конкуренты вроде Amazon, Roku и Netflix тоже внедряют похожие ИИ-инструменты.
БАС лишил музыканта Патрика Дарлинга голоса, но ИИ от ElevenLabs позволил воссоздать клон по старым записям и вернуться к композициям. С помощью voice clone и музыкального генератора он сочинил песню и впервые за два года выступил на сцене с группой. Технология уже помогает жертвам БМН и других болезней творчески самовыражаться.
Голосовой ИИ-стартап ElevenLabs привлек $500 млн от Sequoia Capital по рекордной оценке $11 млрд. Деньги уйдут на исследования, продукты и экспансию в Азию и Латинскую Америку. Компания уже достигла $330 млн ARR и планирует развивать агентов с видео.
Физические гаджеты с ИИ упрощают запись и анализ очных встреч: они транскрибируют аудио, создают саммари и списки задач. Обзор включает модели от Plaud, Mobvoi, Comulytic и других — от компактных пластин до носимых подвесок и наушников. Большинство стоят около 150–200 долларов с бонусными минутами транскрипции.
Google тестирует клонирование голоса в AI Studio на базе Gemini 3 Flash с опцией "Create Your Voice" для записи аудио. Это позволит создавать синтетические голоса из реальных образцов, а обновление декабря 2024 улучшило качество. Появились функции импорта кода из GitHub и обновленный интерфейс главной страницы.
Doist запустила в Todoist функцию Ramble: она превращает голосовые описания в готовые задачи с деталями вроде сроков и приоритетов. ИИ работает на модели Google Gemini 2.5 Flash Live, не хранит аудио и прошла тестирование на 150 тысячах пользователей. Функция доступна всем на разных платформах с поддержкой 38 языков.
Deutsche Telekom начинает использовать голосовых ИИ-агентов ElevenLabs для обработки звонков клиентов круглосуточно. Система уже решает 80% простых запросов, а партнёрство включает бесплатные подкасты и инвестиции. ElevenLabs развивает технологии, добавляя маркетплейс голосов знаменитостей и новую модель Eleven v3.
Bee — носимое ИИ-устройство от Amazon — упрощает запись и анализ бесед, разбивая их на сегменты с краткими пересказами. Оно интегрируется с Google-сервисами для задач, хранит воспоминания и факты о пользователе, но удаляет аудио после обработки и требует разрешения на запись. Пока идея повседневного использования вызывает вопросы о приватности и культурных нормах.
Shure и Zoom используют ИИ для революции в аудиокоммуникациях: от шумоподавления до агентных ассистентов. Пандемия ускорила инновации, сделав звук основой продуктивности в гибридном мире. Будущие разработки обещают бесшовные связи без забот о технике.
Apple переносит релиз переработанной Siri, анонсированной в 2024 году с Apple Intelligence. Функции выйдут постепенно: с iOS 26.4 в марте, в мае или с iOS 27 в сентябре из-за проблем в тестах. Новая версия использует Google Gemini для конкуренции с топовыми чат-ботами.
Alexa+ — продвинутая версия помощника Amazon на базе генеративного ИИ — теперь доступна всем в США бесплатно для Prime-пользователей. Она поддерживает сложные диалоги, интеграции с сервисами и автономные задачи. Компания учла отзывы, улучшила голос и настройки, показав рост активности на 25–300%.
Google Maps теперь поддерживает голосовое общение с Gemini при ходьбе и на велосипеде, позволяя задавать вопросы о районе, кафе, времени прибытия или даже отправлять сообщения. Функция доступна на iOS и выходит на Android, дополняя недавние обновления вроде советов от Gemini и прогнозов зарядок для электрокаров. Это часть стратегии по углублению интеграции ИИ в повседневные сервисы.
Nvidia выпустила открытую модель PersonaPlex для голосовых диалогов без пауз: она слушает и отвечает одновременно, с голосами и ролями на выбор. Модель обходит конкурентов в тестах на естественность и задержки, обучена на реальных и синтетических данных. Код доступен на Hugging Face и GitHub.
Мэттью Макконахи зарегистрировал восемь товарных знаков в США, чтобы предотвратить использование ИИ его голоса и образа без разрешения. Это включает культовую фразу из фильма 1993 года и короткий видеоклип. Актёр инвестирует в ИИ-стартап ElevenLabs и ждёт федерального регулирования.
ElevenLabs, разработчик ИИ для голоса, вышел на $330 млн ARR менее чем за три года после запуска. Технология голосовых агентов уже обрабатывает десятки тысяч звонков для крупных фирм. Стартап привлек сотни миллионов инвестиций и расширился на музыку и голоса знаменитостей.
Amazon сообщил, что 97% своих устройств совместимы с Alexa+, а компания уже продала свыше 600 миллионов гаджетов. Новый AI-ассистент постепенно становится доступен десяткам миллионов пользователей и предлагает продвинутые функции вроде AI-агентов для повседневных задач. Планы включают интеграции с партнерами и конкуренцию с Siri, ChatGPT и Claude.