Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
Google выпустил бесплатное iOS-приложение Google AI Edge Eloquent для оффлайн-диктовки на базе Gemma. Оно чистит речь от паразитов, предлагает стили текста и интегрирует данные из Gmail. Сервис конкурирует с Wispr Flow и другими, клавиатура для iOS на подходе.
Microsoft AI выпустила три базовые модели ИИ: MAI-Transcribe-1 для транскрипции речи на 25 языках, MAI-Voice-1 для генерации аудио и MAI-Image-2 для видео. Они дешевле аналогов от Google и OpenAI, разработаны командой супер-интеллекта под Мустафу Сулемана. Компания сохраняет партнерство с OpenAI, инвестировав более 13 млрд долларов.
Генераторы ИИ вроде Suno тайно проникают в производство хитов: продюсеры создают семплы и демо, но молчат из страха критики, а ИИ уже в чартах Billboard. В хип-хопе более половины семплов — от ИИ, сессионщики теряют работу. Неопределенность с копирайтом и конкуренция с гигантами вроде Google усложняют ситуацию.
Google сделал Search Live доступным по всему миру для пользователей из более 200 стран. Функция позволяет общаться с поиском голосом и камерой, используя модель Gemini 3.1 Flash Live для естественных бесед. Доступно в AI-режиме приложения Google и через Lens.
Cohere выпустила открытую модель Transcribe с 2 млрд параметров для распознавания речи, поддерживающую 14 языков и лидирующую на Hugging Face с WER 5,42. Она быстро обрабатывает аудио и будет доступна бесплатно через API и Model Vault с интеграцией в North. Такие модели востребованы для заметок и диктовки, а Cohere показывает сильный рост выручки.
Amazon вывела ИИ-ассистент Alexa+ в Великобританию — первую страну за пределами Северной Америки. Сервис адаптирован под британский акцент с помощью обучения с подкреплением и доступен бесплатно в раннем доступе для покупателей Echo. После теста он будет стоить 19,99 фунта в месяц без Prime.
Руководство объясняет установку PersonaPlex от NVIDIA на Linux для локального запуска полнодуплексной модели ИИ речь-в-речь. Система поддерживает прерывания, естественные диалоги и веб-интерфейс в браузере, модель весит 16.7 ГБ. Доступны пресеты голосов и кастомные шаблоны для общения.
Anthropic разворачивает голосовой режим в Claude Code: разработчики активируют его командой /voice и диктуют задачи. Функция доступна 5% пользователей с расширением скоро; инструмент доминирует на рынке с выручкой свыше 2,5 млрд долларов в год и удвоением аудитории.
Google представил бесплатное приложение Google AI Edge Eloquent для оффлайн-диктовки на iOS с моделями Gemma. Оно фильтрует слова-паразиты, предлагает стили текста и импортирует термины из Gmail. Ожидается версия для Android с функцией плавающей кнопки.
Amazon расширил Alexa+ возможностью заказа еды из Uber Eats и Grubhub в разговорном стиле с мгновенными правками. Функция доступна на Echo Show 8+, синхронизирует прошлые заказы и подводит итоги. Это развитие идёт на фоне трудностей ИИ в фастфуде у McDonald’s и Taco Bell, а ассистент обзавёлся новыми стилями общения.
Французский стартап Mistral представил Voxtral TTS — первую модель text-to-speech с открытыми весами, поддерживающую девять языков и клонирующую голоса с трех секунд аудио. Она компактна (4 млрд параметров), имеет задержку 70 мс и в тестах естественнее ElevenLabs Flash v2.5. Доступна через API и на Hugging Face.
Голосовая ИИ-компания Bland AI выросла от pre-seed до Series B за 10 месяцев с командой в 75 человек, наняв нестандартных кандидатов вроде бывшего менеджера Taco Bell. CEO Айзея Гранет подчёркивает важность страсти и одержимости, делится тактикой мотивации и признаёт вызовы масштабирования. Такой подход ускоряет развитие, но требует полной отдачи от сотрудников.
Физические ИИ-устройства вроде Plaud Note, Mobvoi TicNote и других записывают очные встречи, транскрибируют речь и создают саммари. Они компактны, носимы или размером с карту, многие без обязательных подписок. Модели различаются по микрофонам, автономности и бесплатным минутам транскрипции.
Бывший инженер Apple Елена Вагенманс запустила Taya — кулон, который записывает только голос владельца для заметок с ИИ. Устройство привлекло $5 млн инвестиций от MaC Venture Capital и других. Фокус на приватности: голосовой сэмпл для фильтрации, направленные микрофоны и приложение с чатом.
Сара Люцена из Mappa разработала голосовой ИИ для анализа поведения кандидатов за минуту, чтобы стартапы избегали неудачных наймов. Технология фокусируется на совместимости по биомаркерам речи из датасета сотен интервью. Команда аутсайдеров делится советом: проверяйте подход под роли с самого начала.
OpenAI выпустила модель gpt-realtime-1.5 для Realtime API, повысив надежность голосовых команд: точность транскрипции цифр и букв выросла на 10%, логические аудиозадачи — на 5%, инструкции — на 7%. Аудиомодель обновлена до версии 1.5. Responses API теперь использует WebSocket, ускоряя ИИ-агентов с tool calls на 20–40%.