Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
Spotify ввела поддержку подкастов в ИИ-функцию Prompted Playlists для премиум-пользователей в США, Канаде, Великобритании и других странах. Пользователи задают промты для персонализированных подборок с настройками обновлений и объяснениями выбора эпизодов. Еженедельно платформа помогает открыть более 34 млн новых подкастов.
Google анонсировала Gemini 3.1 Flash Live — топовую голосовую ИИ-модель с быстрыми откликами и естественными беседами. В тестах Big Bench Audio она набирает 95,9% на высоком уровне мышления и доступна по низкой цене через API и сервисы компании в 200+ странах.
Физические ИИ-устройства вроде Plaud Note, Mobvoi TicNote и других записывают очные встречи, транскрибируют речь и создают саммари. Они компактны, носимы или размером с карту, многие без обязательных подписок. Модели различаются по микрофонам, автономности и бесплатным минутам транскрипции.
Модель Perch 2.0 от Google DeepMind, обученная на звуках птиц, точно классифицирует вокализации китов благодаря transfer learning. Тесты на морских датасетах с использованием спектрограмм и логистической регрессии показали результаты на уровне или лучше других моделей. Подход экономит ресурсы и помогает в мониторинге океанских млекопитающих.
Руководство объясняет установку PersonaPlex от NVIDIA на Linux для локального запуска полнодуплексной модели ИИ речь-в-речь. Система поддерживает прерывания, естественные диалоги и веб-интерфейс в браузере, модель весит 16.7 ГБ. Доступны пресеты голосов и кастомные шаблоны для общения.
Spotify сделал доступными ИИ-плейлисты Prompted Playlists для премиум-пользователей в Великобритании, Ирландии, Австралии и Швеции. Пользователи описывают желаемое звучание, а сервис генерирует подборку с учётом истории прослушиваний, трендов и объяснениями для треков. Функция в бета-версии с лимитами, компания активно внедряет ИИ в другие разделы.
Shure и Zoom используют ИИ для революции в аудиокоммуникациях: от шумоподавления до агентных ассистентов. Пандемия ускорила инновации, сделав звук основой продуктивности в гибридном мире. Будущие разработки обещают бесшовные связи без забот о технике.
БАС лишил музыканта Патрика Дарлинга голоса, но ИИ от ElevenLabs позволил воссоздать клон по старым записям и вернуться к композициям. С помощью voice clone и музыкального генератора он сочинил песню и впервые за два года выступил на сцене с группой. Технология уже помогает жертвам БМН и других болезней творчески самовыражаться.
Генераторы ИИ вроде Suno тайно проникают в производство хитов: продюсеры создают семплы и демо, но молчат из страха критики, а ИИ уже в чартах Billboard. В хип-хопе более половины семплов — от ИИ, сессионщики теряют работу. Неопределенность с копирайтом и конкуренция с гигантами вроде Google усложняют ситуацию.
Talat — локальное Mac-приложение для ИИ-заметок с встреч, альтернатива облачным сервисам вроде Granola. Оно транскрибирует аудио в реальном времени, суммирует ключевые моменты и хранит данные только на устройстве, с гибкими настройками моделей. Разовая покупка за 49 долларов в предрелизе, пробный период 10 часов.
Rebel Audio предлагает all-in-one платформу с ИИ для новичков в подкастинге: от записи до монетизации. Проект привлёк $3,8 млн инвестиций, рынок подкастов вырастет до $114,5 млрд к 2030 году. Команда включает ветеранов индустрии, внедрены меры против рисков ИИ-контента.
Google DeepMind выпустил MusicFX DJ — веб-инструмент для генерации музыки ИИ в реальном времени по текстовым запросам на базе Lyria RealTime. Пользователи комбинируют до 10 слоёв, управляют с помощью слайдеров интенсивности, хаоса и плотности, получая 48 кГц стерео. Сервис упрощает творчество, доступен через API и поднимает вопросы этики в ИИ-музыке.
Сотрудники OpenAI своими постами в X вызвали обсуждения новой омни-модели как преемницы GPT-4o. Исследователь Brandon McKinzie поддержал идею улучшений. Компания параллельно создает аудио BiDi для естественных прерываемых диалогов с прототипом, который пока нестабилен.
Новостное ИИ-приложение Particle от бывших инженеров Twitter запустило Podcast Clips: функция извлекает релевантные фрагменты из подкастов и добавляет их к новостям в ленте. Пользователи слушают клипы или читают подсвеченные транскрипты, а для персоналий вроде Сэма Альтмана собирается персональный фид выступлений. Вышла подписка Particle+ за $2.99/мес с премиум-опциями и версия для Android.
Биоакустическая модель Perch 2.0 от Google DeepMind, обученная в основном на звуках птиц, лучше специализированных систем распознаёт китовые вокализации. Это достижение объясняют масштабами данных, сложностью птичьих звуков и эволюционными сходствами. Такой подход ускоряет анализ новых морских открытий.
ByteDance представила Seedance 2.0 — продвинутую мультимодальную модель для генерации видео длиной 4–15 секунд с аудио. Она использует референсы из видео для контроля камеры и редактирования, но пока доступна только в бета-версии. Выпуск усилил конкуренцию в Китае, подняв акции ИИ-компаний.