Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
Shure и Zoom используют ИИ для революции в аудиокоммуникациях: от шумоподавления до агентных ассистентов. Пандемия ускорила инновации, сделав звук основой продуктивности в гибридном мире. Будущие разработки обещают бесшовные связи без забот о технике.
БАС лишил музыканта Патрика Дарлинга голоса, но ИИ от ElevenLabs позволил воссоздать клон по старым записям и вернуться к композициям. С помощью voice clone и музыкального генератора он сочинил песню и впервые за два года выступил на сцене с группой. Технология уже помогает жертвам БМН и других болезней творчески самовыражаться.
Mistral AI запустила Voxtral Transcribe 2 — модели распознавания речи по цене от $0.003 за минуту, дешевле и точнее GPT-4o mini Transcribe, Gemini 2.5 Flash и Deepgram Nova. Есть версии для больших файлов и реального времени с задержкой менее 200 мс, поддержка 13 языков, распознавание спикеров и до 3 часов аудио. Одна модель открыта на Hugging Face под Apache 2.0.
Google тестирует клонирование голоса в AI Studio на базе Gemini 3 Flash с опцией "Create Your Voice" для записи аудио. Это позволит создавать синтетические голоса из реальных образцов, а обновление декабря 2024 улучшило качество. Появились функции импорта кода из GitHub и обновленный интерфейс главной страницы.
Spotify запускает Prompted Playlists — улучшенный ИИ-инструмент для создания персональных плейлистов по текстовым описаниям — для Premium в США и Канаде. Функция анализирует тренды, культуру и историю прослушиваний, позволяет выходить за привычки и делиться промптами. Это эволюция 2024 года, обе версии сосуществуют в бета-режиме на английском.
Deutsche Telekom начинает использовать голосовых ИИ-агентов ElevenLabs для обработки звонков клиентов круглосуточно. Система уже решает 80% простых запросов, а партнёрство включает бесплатные подкасты и инвестиции. ElevenLabs развивает технологии, добавляя маркетплейс голосов знаменитостей и новую модель Eleven v3.
Утечка раскрывает носимое аудиоустройство OpenAI 'Sweetpea' как конкурента AirPods: чип 2 нм, запуск в сентябре, 40–50 млн продаж в год. Компоненты включают EMG-датчик, ультразвук и управление Siri. Foxconn расширит производство гаджетов компании, включая 'Gumdrop'.
Google Classroom обзавелся инструментом на Gemini, превращающим уроки в подкасты для большего вовлечения студентов. Функция позволяет кастомизировать аудио и доступна на образовательных тарифах Workspace. Несмотря на популярность формата, учителям советуют проверять ИИ-контент.
Биоакустическая модель Perch 2.0 от Google DeepMind, обученная в основном на звуках птиц, лучше специализированных систем распознаёт китовые вокализации. Это достижение объясняют масштабами данных, сложностью птичьих звуков и эволюционными сходствами. Такой подход ускоряет анализ новых морских открытий.
ByteDance представила Seedance 2.0 — продвинутую мультимодальную модель для генерации видео длиной 4–15 секунд с аудио. Она использует референсы из видео для контроля камеры и редактирования, но пока доступна только в бета-версии. Выпуск усилил конкуренцию в Китае, подняв акции ИИ-компаний.
Физические гаджеты с ИИ упрощают запись и анализ очных встреч: они транскрибируют аудио, создают саммари и списки задач. Обзор включает модели от Plaud, Mobvoi, Comulytic и других — от компактных пластин до носимых подвесок и наушников. Большинство стоят около 150–200 долларов с бонусными минутами транскрипции.
Deezer открыл конкурентам свой инструмент для выявления полностью ИИ-сгенерированной музыки, чтобы бороться с мошенничеством — 85% стримов таких треков фальшивые. Система с точностью 99,8% уже нашла 13,4 миллиона ИИ-песен. Другие платформы и лейблы тоже реагируют на проблему по-разному.
Adobe обновила Acrobat новыми ИИ-инструментами: создание презентаций и подкастов из файлов, редактирование документов промтами. Функции используют данные из Spaces, интегрируются с Express и предлагают роли ассистентов. Это упрощает работу с контентом, конкурируя с Canva и NotebookLM.
Bandcamp запрещает музыку и аудио, созданные ИИ полностью или в основном, чтобы поддержать настоящих музыкантов и уверенность фанатов. Пока ИИ-хиты вроде треков от Suno лидируют в чартах, платформа выбирает человеческий труд. Юридические споры вокруг таких сервисов продолжаются, но Bandcamp держится особняком от стриминговых гигантов.
Bee — носимое ИИ-устройство от Amazon — упрощает запись и анализ бесед, разбивая их на сегменты с краткими пересказами. Оно интегрируется с Google-сервисами для задач, хранит воспоминания и факты о пользователе, но удаляет аудио после обработки и требует разрешения на запись. Пока идея повседневного использования вызывает вопросы о приватности и культурных нормах.
Plaud выпустила компактный AI-пин NotePin S с кнопкой для записи и отметок, плюс аксессуарами для ношения. Устройство имеет 64 ГБ памяти и 20 часов работы, а также десктопное приложение для онлайн-встреч с мультимодальными заметками. Это четвертый продукт компании, продавшей уже 1,5 млн устройств.