Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
Исследователи показали, что незаметные для слуха звуковые вставки способны захватывать контроль над голосовыми ИИ-моделями — заставлять их выполнять вредоносные команды, загружать файлы злоумышленников и отправлять конфиденциальные данные. Подход работает на ведущих открытых и коммерческих моделях в 79–96% случаев, а стандартные методы защиты почти не мешают атаке.
Mistral AI представила Voxtral TTS — открытую модель TTS с 4 млрд параметров для 9 языков. Она клонирует голос за 3 секунды аудио, обеспечивает задержку 70 мс и RTF 9.7x. Подходит для реального времени в агентах, поддержке и локализации.
Amazon ввел функцию 'Join the chat' — ИИ-аудиочат для вопросов о товарах на страницах продуктов. Она интегрирована в 'Hear the highlights' с аудиообзорами и доступна в приложении для США. Функция опирается на отзывы и характеристики, дополняя инструменты вроде Rufus и Interests.
Nothing представила Essential Voice — ИИ-инструмент для голосового ввода текста в любом приложении смартфона. Он удаляет слова-паразиты, поддерживает кастомные шорткаты и перевод на 100+ языков, стартовав на Phone (3). Функция ускоряет набор в четыре раза по сравнению с печатью.
Google запустила модель синтеза речи Gemini 3.1 Flash TTS — самую естественную с аудиотэгами для контроля стиля и поддержкой 70+ языков. Она занимает топовые места в рейтингах Artificial Analysis с Elo 1211, обходя ElevenLabs v3. Доступна бесплатно в AI Studio с пометкой SynthID.
Мобильное приложение Avec упрощает обработку email карточками со свайпами как в Tinder и голосовыми ответами с учётом контекста. Оно учится на привычках пользователя и группирует неважные письма. Стартап привлек 8,4 млн долларов инвестиций и фокусируется на iOS с планами на расширение.
Google представил бесплатное приложение Google AI Edge Eloquent для оффлайн-диктовки на iOS с моделями Gemma. Оно фильтрует слова-паразиты, предлагает стили текста и импортирует термины из Gmail. Ожидается версия для Android с функцией плавающей кнопки.
Amazon расширил Alexa+ возможностью заказа еды из Uber Eats и Grubhub в разговорном стиле с мгновенными правками. Функция доступна на Echo Show 8+, синхронизирует прошлые заказы и подводит итоги. Это развитие идёт на фоне трудностей ИИ в фастфуде у McDonald’s и Taco Bell, а ассистент обзавёлся новыми стилями общения.
Рейтинг лучших приложений для диктовки речи на базе ИИ после тестирования: Wispr Flow с кастомными стилями, Willow с фокусом на приватность, Superwhisper для файлов. Каждое предлагает уникальные функции вроде низкой задержки, оффлайн-работы или больших бесплатных лимитов, цены от бесплатных до пожизненных лицензий.
Google Translate к 20-летию запустил практику произношения с оценкой речи и советами. Функция работает на английском, испанском и хинди в США и Индии, похожа на Duolingo. Недавно расширили перевод через наушники на iOS и ряд стран для Android.
SpeakOn — легкий гаджет на 25 г для голосовой диктовки, крепится к iPhone через MagSafe и работает независимо от микрофона смартфона. Устройство распознает речь в 2 футах, переводит на 12 языков, но страдает от шумов, ограничено iOS и навязчиво редактирует текст. Стоит $129 за 5000 слов в неделю, перспективно при доработках.
DeepL анонсировала инструменты для перевода речи в реальном времени с поддержкой Zoom, Teams, мобильных чатов и групповых сессий по QR-коду. Система адаптируется к терминологии, балансирует задержку и точность, а в будущем перейдет на end-to-end модель. Конкурируют Sanas с изменением акцентов, Camb.AI для видео и Palabra с сохранением голоса.
Исследователи создали LPM 1.0 — ИИ для генерации видео в реальном времени из одного фото с лип-синком, мимикой и эмоциями, стабильных до 45 минут. Модель различает состояния разговора, работает с фотореализмом, аниме и 3D без дообучения. Пока проект закрыт, без релиза из-за deepfake-рисков.
Google выпустил бесплатное iOS-приложение Google AI Edge Eloquent для оффлайн-диктовки на базе Gemma. Оно чистит речь от паразитов, предлагает стили текста и интегрирует данные из Gmail. Сервис конкурирует с Wispr Flow и другими, клавиатура для iOS на подходе.
Microsoft AI выпустила три базовые модели ИИ: MAI-Transcribe-1 для транскрипции речи на 25 языках, MAI-Voice-1 для генерации аудио и MAI-Image-2 для видео. Они дешевле аналогов от Google и OpenAI, разработаны командой супер-интеллекта под Мустафу Сулемана. Компания сохраняет партнерство с OpenAI, инвестировав более 13 млрд долларов.
Генераторы ИИ вроде Suno тайно проникают в производство хитов: продюсеры создают семплы и демо, но молчат из страха критики, а ИИ уже в чартах Billboard. В хип-хопе более половины семплов — от ИИ, сессионщики теряют работу. Неопределенность с копирайтом и конкуренция с гигантами вроде Google усложняют ситуацию.