голос

83 публикации по теме

голос

DeepL купила Mixhalo для синхронного перевода на живых мероприятиях

Немецкий сервис перевода DeepL купил стартап Mixhalo, специализирующийся на передаче звука в реальном времени. Mixhalo, привлёкшая более 39 млн долларов инвестиций, давно использовала DeepL для перевода, а теперь поможет компании выйти в сферу живых мероприятий и укрепиться на американском рынке.

1 мин

19 июня 2026 г.

Новости

Google Home Speaker с Gemini: новая эра умных колонок

Google представила новую умную колонку Home Speaker с поддержкой Gemini. Устройство понимает естественную речь, позволяет давать сложные команды и исправлять их на ходу. Продвинутые ИИ-функции доступны по подписке за $10 в месяц.

2 мин

17 июня 2026 г.

Статьи

Лучшие ИИ-приложения для диктовки речи: тест и рейтинг

Рейтинг лучших приложений для диктовки речи на базе ИИ после тестирования: Wispr Flow с кастомными стилями, Willow с фокусом на приватность, Superwhisper для файлов. Каждое предлагает уникальные функции вроде низкой задержки, оффлайн-работы или больших бесплатных лимитов, цены от бесплатных до пожизненных лицензий.

9 мин

2 мая 2026 г.

Новости

Google Translate теперь позволяет практиковать произношение

Google Translate к 20-летию запустил практику произношения с оценкой речи и советами. Функция работает на английском, испанском и хинди в США и Индии, похожа на Duolingo. Недавно расширили перевод через наушники на iOS и ряд стран для Android.

1 мин

29 апреля 2026 г.

Статьи

Устройство SpeakOn для диктовки: плюсы и ограничения

SpeakOn — легкий гаджет на 25 г для голосовой диктовки, крепится к iPhone через MagSafe и работает независимо от микрофона смартфона. Устройство распознает речь в 2 футах, переводит на 12 языков, но страдает от шумов, ограничено iOS и навязчиво редактирует текст. Стоит $129 за 5000 слов в неделю, перспективно при доработках.

5 мин

26 апреля 2026 г.

Новости

DeepL осваивает голосовой перевод в реальном времени

DeepL анонсировала инструменты для перевода речи в реальном времени с поддержкой Zoom, Teams, мобильных чатов и групповых сессий по QR-коду. Система адаптируется к терминологии, балансирует задержку и точность, а в будущем перейдет на end-to-end модель. Конкурируют Sanas с изменением акцентов, Camb.AI для видео и Palabra с сохранением голоса.

3 мин

16 апреля 2026 г.

Новости

LPM 1.0: ИИ генерирует 45-минутное видео из фото в реальном времени

Исследователи создали LPM 1.0 — ИИ для генерации видео в реальном времени из одного фото с лип-синком, мимикой и эмоциями, стабильных до 45 минут. Модель различает состояния разговора, работает с фотореализмом, аниме и 3D без дообучения. Пока проект закрыт, без релиза из-за deepfake-рисков.

2 мин

13 апреля 2026 г.

Новости

Google выпустил оффлайн-приложение для ИИ-диктовки Eloquent

Google выпустил бесплатное iOS-приложение Google AI Edge Eloquent для оффлайн-диктовки на базе Gemma. Оно чистит речь от паразитов, предлагает стили текста и интегрирует данные из Gmail. Сервис конкурирует с Wispr Flow и другими, клавиатура для iOS на подходе.

3 мин

8 апреля 2026 г.

Новости

Plaud достигла $100 млн ARR, продав 2 млн ИИ-гаджетов

Plaud, производитель ИИ-устройств для записи встреч, продал более 2 миллионов гаджетов и достиг $100 млн ARR на подписках. Почти 50% владельцев переходят на платные тарифы, компания представила десктопное приложение и решение для команд.

1 мин

18 июня 2026 г.

Новости

Голосовые ИИ-системы уязвимы для скрытых аудиоатак

Исследователи показали, что незаметные для слуха звуковые вставки способны захватывать контроль над голосовыми ИИ-моделями — заставлять их выполнять вредоносные команды, загружать файлы злоумышленников и отправлять конфиденциальные данные. Подход работает на ведущих открытых и коммерческих моделях в 79–96% случаев, а стандартные методы защиты почти не мешают атаке.

7 мин

18 мая 2026 г.

Новости

Открытая Voxtral TTS: синтез речи от Mistral AI

Mistral AI представила Voxtral TTS — открытую модель TTS с 4 млрд параметров для 9 языков. Она клонирует голос за 3 секунды аудио, обеспечивает задержку 70 мс и RTF 9.7x. Подходит для реального времени в агентах, поддержке и локализации.

12 мин

1 мая 2026 г.

Новости

Amazon запустил ИИ-аудиочат для вопросов о товарах

Amazon ввел функцию 'Join the chat' — ИИ-аудиочат для вопросов о товарах на страницах продуктов. Она интегрирована в 'Hear the highlights' с аудиообзорами и доступна в приложении для США. Функция опирается на отзывы и характеристики, дополняя инструменты вроде Rufus и Interests.

2 мин

28 апреля 2026 г.

Новости

Nothing представила ИИ-диктовку Essential Voice

Nothing представила Essential Voice — ИИ-инструмент для голосового ввода текста в любом приложении смартфона. Он удаляет слова-паразиты, поддерживает кастомные шорткаты и перевод на 100+ языков, стартовав на Phone (3). Функция ускоряет набор в четыре раза по сравнению с печатью.

1 мин

24 апреля 2026 г.

Новости

Google Gemini 3.1 TTS — самая выразительная модель с 70+ языками

Google запустила модель синтеза речи Gemini 3.1 Flash TTS — самую естественную с аудиотэгами для контроля стиля и поддержкой 70+ языков. Она занимает топовые места в рейтингах Artificial Analysis с Elo 1211, обходя ElevenLabs v3. Доступна бесплатно в AI Studio с пометкой SynthID.

2 мин

15 апреля 2026 г.

Новости

Avec: почтовое приложение со свайпами в стиле Tinder

Мобильное приложение Avec упрощает обработку email карточками со свайпами как в Tinder и голосовыми ответами с учётом контекста. Оно учится на привычках пользователя и группирует неважные письма. Стартап привлек 8,4 млн долларов инвестиций и фокусируется на iOS с планами на расширение.

3 мин

9 апреля 2026 г.

Новости

Google выпустил оффлайн ИИ-приложение для диктовки на iOS

Google представил бесплатное приложение Google AI Edge Eloquent для оффлайн-диктовки на iOS с моделями Gemma. Оно фильтрует слова-паразиты, предлагает стили текста и импортирует термины из Gmail. Ожидается версия для Android с функцией плавающей кнопки.

3 мин

6 апреля 2026 г.

голос

DeepL купила Mixhalo для синхронного перевода на живых мероприятиях

Google Home Speaker с Gemini: новая эра умных колонок

Лучшие ИИ-приложения для диктовки речи: тест и рейтинг

Google Translate теперь позволяет практиковать произношение

Устройство SpeakOn для диктовки: плюсы и ограничения

DeepL осваивает голосовой перевод в реальном времени

LPM 1.0: ИИ генерирует 45-минутное видео из фото в реальном времени

Google выпустил оффлайн-приложение для ИИ-диктовки Eloquent

Plaud достигла $100 млн ARR, продав 2 млн ИИ-гаджетов

Голосовые ИИ-системы уязвимы для скрытых аудиоатак

Открытая Voxtral TTS: синтез речи от Mistral AI

Amazon запустил ИИ-аудиочат для вопросов о товарах

Nothing представила ИИ-диктовку Essential Voice

Google Gemini 3.1 TTS — самая выразительная модель с 70+ языками

Avec: почтовое приложение со свайпами в стиле Tinder

Google выпустил оффлайн ИИ-приложение для диктовки на iOS

Сейчас в тренде

Популярные темы