Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
Система Nucleus Nexa от Cochlear — первый кохлеарный имплант с машинным обучением, работающим внутри тела при жестких энергозатратах и способным к беспроводным обновлениям. Он классифицирует акустические среды, управляет шумом и хранит персональные данные локально, открывая путь к автономным ИИ-устройствам в медицине. Это решает ключевые вызовы: от долгосрочной работы батареи до безопасности и конфиденциальности.
Warner Music Group урегулировала судебный иск против платформы ИИ Suno и заключила с ней партнёрство, став первой крупной компанией в этой сфере. Сделка включает запуск лицензированных моделей и ограничения на скачивания, а также приобретение Suno сервиса Songkick. Это происходит на фоне недавнего раунда финансирования Suno на 250 миллионов долларов.
Spotify вводит обновленный режим shuffle с меньшим количеством повторов для платных пользователей, делая его стандартным по умолчанию. Функция генерирует множество вариантов плейлиста для повышения разнообразия. Кроме того, появляется ИИ-рекap для аудиокниг, помогающий быстро вспомнить сюжет, доступный в бета на iOS.
Синтетические голоса ИИ переходят в стадию массового применения, становясь доступными для всех. Это открывает возможности для создателей контента, но вызывает этические вопросы о доверии и злоупотреблениях. Исследования подчеркивают растущий спрос и необходимость баланса между инновациями и безопасностью.
Гендиректор ElevenLabs Мати Станишевски прогнозирует, что модели ИИ для аудио со временем станут стандартным товаром, но в ближайшие годы они останутся ключевым преимуществом. Компания планирует фокусироваться на их разработке, мультимодальных подходах и партнерствах для создания ценности. Это заявление было сделано на конференции TechCrunch Disrupt 2025.
Adobe представила Firefly Image 5 с поддержкой слоев и возможностью создания кастомных моделей на основе личного стиля. Модель улучшила разрешение до 4 мегапикселей и качество рендеринга людей, а сайт Firefly обзавелся новыми инструментами для видео, аудио и интеграции с внешними AI. Это обновление помогает Adobe конкурировать с платформами вроде Canva, привлекая новое поколение креаторов.
OpenAI разрабатывает новый инструмент для создания музыки по текстовым и аудио-подсказкам, который может интегрироваться с существующими продуктами компании. Сотрудничество с Джульярдской школой помогает собрать данные для обучения. Это развитие конкурирует с аналогичными проектами Google и Suno.
Google обновил Music AI Sandbox, добавив модель Lyria 2 для генерации высококачественной музыки и расширив доступ для музыкантов в США. Инструменты позволяют создавать, расширять и редактировать аудио, стимулируя творчество. Разработка ведется в сотрудничестве с профессионалами для этичного применения ИИ в музыке.
Ученые разработали адаптивные нейронные модели усилителей, которые позволяют изменять их размер и нагрузку без переобучения, помогая музыкантам балансировать точность и ресурсы. Подход сравнили с базовыми методами и интегрировали в плагин для аудио. Работа принята на NeurIPS 2025 по ИИ в музыке.
Мэттью Макконахи использует ИИ от ElevenLabs для перевода своего подкаста на испанский с сохранением оригинального голоса. Как инвестор компании, он активно участвует в развитии технологий, аналогично Майклу Кейну, лицензирующему свой голос. Это открывает новые возможности для создателей, но вызывает опасения по поводу злоупотреблений аудио ИИ.
ElevenLabs заключила партнерства с Майклом Кейном и Мэттью Макконахи для создания ИИ-версий их голосов. Компания запускает маркетплейс для брендов с авторизованными голосами знаменитостей, включая Лизу Миннелли и Майю Анджелоу. Это развитие отражает растущий интерес Голливуда к технологиям ИИ после периода напряженности.
Adobe разрабатывает Corrective AI — инструмент для постредактирования эмоций в голосовых записях, интегрированный в экосистему Firefly. Это позволяет легко менять тональность без перезаписи, но вызывает этические вопросы о творческом контроле и аутентичности. Технология обещает упростить работу для создателей контента, хотя и рискует утратить человеческие нюансы в исполнении.
В статье представлено сравнение пяти ведущих открытых моделей преобразования текста в речь, включая их технические характеристики и преимущества. Эти модели достигают высокого уровня реализма и выразительности, приближаясь к проприетарным аналогам. Выбор зависит от нужд в многоязычности, скорости и функциональности.
Статья обзорно описывает модели ИИ для обработки аудио, их типы и применения в реальных сценариях. Рассматриваются причины важности аудиомоделей, включая их роль в мультимодальном ИИ и преимущества прямого анализа. Особое внимание уделено задачам преобразования речи в текст, текста в речь и речи в речь, с примерами использования в повседневных задачах.
Технология V2A от Google DeepMind позволяет генерировать синхронизированные саундтреки для видео на основе пикселей и текстовых подсказок, интегрируясь с моделями вроде Veo. Она обеспечивает гибкий контроль над аудио и работает без ручной синхронизации, хотя исследования продолжаются для устранения ограничений, таких как качество входного видео и синхронизация губ. Разработка акцентирует внимание на безопасности через водяные знаки SynthID и консультации с творческим сообществом.
Google Fi анонсировала обновления, включая ИИ-фильтры шума для звонков и RCS-поддержку в веб-чатах. Функция Wi-Fi Auto Connect+ расширится на миллионы локаций, а приложение получит ИИ-сводки по расходам. Новым пользователям предлагается скидка 50% на 15 месяцев при выборе определенных планов.