Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

Google Gemini 3.1 TTS — самая выразительная модель с 70+ языками

Google запустила модель синтеза речи Gemini 3.1 Flash TTS — самую естественную с аудиотэгами для контроля стиля и поддержкой 70+ языков. Она занимает топовые места в рейтингах Artificial Analysis с Elo 1211, обходя ElevenLabs v3. Доступна бесплатно в AI Studio с пометкой SynthID.

15 апреля 2026 г.
2 мин
10

Google начинает развертывание свежей модели синтеза речи, построенной на Gemini 3.1 Flash. Разработчики называют ее наиболее естественной и эмоциональной среди всех ранее выпущенных. Главное новшество — аудиотэги, это текстовые инструкции, которые позволяют управлять манерой, скоростью, интонацией и произношением синтезируемого голоса. Поддержка охватывает свыше 70 языков, включая диалоги с несколькими участниками.

В рейтинге Artificial Analysis модель набрала Elo 1211 и лидирует по балансу качества и стоимости. Она опережает Elevenlabs v3 по общему уровню и уступает только Inworld 1.5 Max.

Рейтинг модели Gemini 3.1 Flash TTS среди систем синтеза речи по качеству и стоимости
Модель Gemini 3.1 Flash TTS лидирует среди систем синтеза речи по качеству и соотношению цена-качество. | Изображение: Google

Gemini 3.1 Flash TTS предлагает бесплатный тариф, однако Google применяет данные для доработки своих сервисов. Платный вариант стоит $1 за миллион токенов входного текста и $20 за миллион токенов выходного аудио. Режим пакетной обработки снижает цены вдвое — до $0.50 и $10 соответственно. На платном тарифе данные не идут на улучшение продуктов.

Модель Gemini 3.1 Flash TTS открыта в режиме превью через Gemini API, Vertex AI для корпоративных клиентов и Google Vids для пользователей Workspace. Любой желающий может протестировать ее бесплатно в Google AI Studio. Вся генерируемая речь содержит водяной знак SynthID для обозначения контента от ИИ.