Google представила Gemini 3.1 Flash Live — свою лучшую модель ИИ для голоса и аудио. Она обеспечивает ускоренные ответы, реалистичные диалоги и возможность настройки уровней обработки для разработчиков. Компания отмечает повышенную точность в распознавании тона и эмоций, а также стабильную работу в условиях шума. Теперь эта модель лежит в основе режима реального времени в приложении Gemini.
По данным Artificial Analysis, модель достигает 95,9% на бенчмарке Big Bench Audio при уровне мышления "High", уступая лишь Step-Audio R1.1 Realtime (97,0%) при времени отклика 2,98 секунды. На минимальном уровне "Minimal" точность падает до 70,5%, зато отклик ускоряется до 0,96 секунды.

Модель интегрирована в Gemini Live API, Google AI Studio, Gemini Live и Search Live — всего в более чем 200 странах. Стоимость идентична предшественнику Gemini 2.5: 0,35 доллара за час аудиоввода и 1,40 доллара за час аудиовыхода, что относит ее к наиболее бюджетным аудиомоделям ИИ. Модель Step Audio с чуть лучшими показателями дешевле на вводе, но дороже на выводе.