Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
Немецкий сервис перевода DeepL купил стартап Mixhalo, специализирующийся на передаче звука в реальном времени. Mixhalo, привлёкшая более 39 млн долларов инвестиций, давно использовала DeepL для перевода, а теперь поможет компании выйти в сферу живых мероприятий и укрепиться на американском рынке.
Google представила новую умную колонку Home Speaker с поддержкой Gemini. Устройство понимает естественную речь, позволяет давать сложные команды и исправлять их на ходу. Продвинутые ИИ-функции доступны по подписке за $10 в месяц.
Рейтинг лучших приложений для диктовки речи на базе ИИ после тестирования: Wispr Flow с кастомными стилями, Willow с фокусом на приватность, Superwhisper для файлов. Каждое предлагает уникальные функции вроде низкой задержки, оффлайн-работы или больших бесплатных лимитов, цены от бесплатных до пожизненных лицензий.
Google Translate к 20-летию запустил практику произношения с оценкой речи и советами. Функция работает на английском, испанском и хинди в США и Индии, похожа на Duolingo. Недавно расширили перевод через наушники на iOS и ряд стран для Android.
SpeakOn — легкий гаджет на 25 г для голосовой диктовки, крепится к iPhone через MagSafe и работает независимо от микрофона смартфона. Устройство распознает речь в 2 футах, переводит на 12 языков, но страдает от шумов, ограничено iOS и навязчиво редактирует текст. Стоит $129 за 5000 слов в неделю, перспективно при доработках.
DeepL анонсировала инструменты для перевода речи в реальном времени с поддержкой Zoom, Teams, мобильных чатов и групповых сессий по QR-коду. Система адаптируется к терминологии, балансирует задержку и точность, а в будущем перейдет на end-to-end модель. Конкурируют Sanas с изменением акцентов, Camb.AI для видео и Palabra с сохранением голоса.
Исследователи создали LPM 1.0 — ИИ для генерации видео в реальном времени из одного фото с лип-синком, мимикой и эмоциями, стабильных до 45 минут. Модель различает состояния разговора, работает с фотореализмом, аниме и 3D без дообучения. Пока проект закрыт, без релиза из-за deepfake-рисков.
Google выпустил бесплатное iOS-приложение Google AI Edge Eloquent для оффлайн-диктовки на базе Gemma. Оно чистит речь от паразитов, предлагает стили текста и интегрирует данные из Gmail. Сервис конкурирует с Wispr Flow и другими, клавиатура для iOS на подходе.
Plaud, производитель ИИ-устройств для записи встреч, продал более 2 миллионов гаджетов и достиг $100 млн ARR на подписках. Почти 50% владельцев переходят на платные тарифы, компания представила десктопное приложение и решение для команд.
Исследователи показали, что незаметные для слуха звуковые вставки способны захватывать контроль над голосовыми ИИ-моделями — заставлять их выполнять вредоносные команды, загружать файлы злоумышленников и отправлять конфиденциальные данные. Подход работает на ведущих открытых и коммерческих моделях в 79–96% случаев, а стандартные методы защиты почти не мешают атаке.
Mistral AI представила Voxtral TTS — открытую модель TTS с 4 млрд параметров для 9 языков. Она клонирует голос за 3 секунды аудио, обеспечивает задержку 70 мс и RTF 9.7x. Подходит для реального времени в агентах, поддержке и локализации.
Amazon ввел функцию 'Join the chat' — ИИ-аудиочат для вопросов о товарах на страницах продуктов. Она интегрирована в 'Hear the highlights' с аудиообзорами и доступна в приложении для США. Функция опирается на отзывы и характеристики, дополняя инструменты вроде Rufus и Interests.
Nothing представила Essential Voice — ИИ-инструмент для голосового ввода текста в любом приложении смартфона. Он удаляет слова-паразиты, поддерживает кастомные шорткаты и перевод на 100+ языков, стартовав на Phone (3). Функция ускоряет набор в четыре раза по сравнению с печатью.
Google запустила модель синтеза речи Gemini 3.1 Flash TTS — самую естественную с аудиотэгами для контроля стиля и поддержкой 70+ языков. Она занимает топовые места в рейтингах Artificial Analysis с Elo 1211, обходя ElevenLabs v3. Доступна бесплатно в AI Studio с пометкой SynthID.
Мобильное приложение Avec упрощает обработку email карточками со свайпами как в Tinder и голосовыми ответами с учётом контекста. Оно учится на привычках пользователя и группирует неважные письма. Стартап привлек 8,4 млн долларов инвестиций и фокусируется на iOS с планами на расширение.
Google представил бесплатное приложение Google AI Edge Eloquent для оффлайн-диктовки на iOS с моделями Gemma. Оно фильтрует слова-паразиты, предлагает стили текста и импортирует термины из Gmail. Ожидается версия для Android с функцией плавающей кнопки.