Компании получили доступ к языковой модели с возможностями, близкими к топовой Gemini 3 Pro от Google, но с гораздо меньшими затратами и повышенной скоростью благодаря Gemini 3 Flash.
Эта модель дополняет флагманскую линейку Gemini 3 Pro, Gemini 3 Deep Think и Gemini Agent, которые представили в прошлом месяце.
Gemini 3 Flash уже работает в Gemini Enterprise, Google Antigravity, Gemini CLI, AI Studio и в предварительной версии в Vertex AI. Она анализирует данные почти в реальном времени и позволяет создавать отзывчивые приложения на базе агентов.
Google пишет в блоге, что Gemini 3 Flash развивает популярную серию моделей, заточенную под быстрые рабочие процессы, где важна скорость без ущерба качеству.
Модель стала основой для AI-режима в Google Search и приложении Gemini.
Тулси Доши, старший директор по продуктам в команде Gemini, отметила в отдельной записи: скорость и масштабируемость не требуют жертвовать умом модели.
"Gemini 3 Flash подходит для итеративной разработки, обеспечивает качество кодирования на уровне Gemini 3 Pro при низкой задержке — она быстро рассуждает и решает задачи в интенсивных процессах", — добавила Доши. "Это оптимальный баланс для агентного программирования, готовых систем и интерактивных приложений".
Специализированные компании уже тестируют модель в ответственных областях. Платформа Harvey для юридических фирм отметила рост точности рассуждений на 7% по внутреннему тесту BigLaw Bench, а Resemble AI выявила, что Gemini 3 Flash обрабатывает сложные данные для обнаружения дипфейков в 4 раза быстрее Gemini 2.5 Pro. Такие улучшения открывают возможности для процессов почти в реальном времени, которые раньше были недоступны.
Выше эффективность, ниже цена
Разработчики корпоративного ИИ все чаще учитывают расходы на запуск моделей, особенно когда убеждают руководителей инвестировать в агентные процессы на дорогих системах. Фирмы переходят на компактные или дистиллированные модели, открытые варианты или техники промтинга и исследований для контроля затрат.
Главный плюс Gemini 3 Flash для бизнеса — те же продвинутые мультимодальные функции, вроде анализа видео и извлечения данных, что у более крупных аналогов от Google, но с заметно большей скоростью и меньшей ценой.
Внутренние тесты Google показывают прирост скорости в 3 раза по сравнению с серией 2.5 Pro, а независимая фирма Artificial Analysis в предрелизных замерах уточняет картину.
В ее тестах предварительная версия Gemini 3 Flash выдала 218 токенов вывода в секунду. Это на 22% медленнее, чем у Gemini 2.5 Flash без рассуждений, но все равно быстрее конкурентов вроде GPT-5.1 high (125 т/с) и DeepSeek V3.2 reasoning (30 т/с).
Особо стоит выделить лидерство Gemini 3 Flash в бенчмарке AA-Omniscience по знаниям — она показала высшую точность среди всех протестированных моделей. Правда, за это приходится платить "налогом на рассуждения": расход токенов более чем вдвое выше, чем у серии 2.5 Flash на сложных задачах.
Google компенсирует это низкими тарифами: через Gemini API модель стоит $0.50 за 1 млн входных токенов против $1.25 у Gemini 2.5 Pro, и $3 за 1 млн выходных против $10. Так Gemini 3 Flash выходит самой выгодной в своем классе интеллекта, несмотря на высокую "болтливость" по токенам. Сравнение с альтернативами:
Модель | Ввод (/1M) | Вывод (/1M) | Общая стоимость | Источник |
Qwen 3 Turbo | $0.05 | $0.20 | $0.25 | |
Grok 4.1 Fast (reasoning) | $0.20 | $0.50 | $0.70 | |
Grok 4.1 Fast (non-reasoning) | $0.20 | $0.50 | $0.70 | |
deepseek-chat (V3.2-Exp) | $0.28 | $0.42 | $0.70 | |
deepseek-reasoner (V3.2-Exp) | $0.28 | $0.42 | $0.70 | |
Qwen 3 Plus | $0.40 | $1.20 | $1.60 | |
ERNIE 5.0 | $0.85 | $3.40 | $4.25 | |
Gemini 3 Flash Preview | $0.50 | $3.00 | $3.50 | |
Claude Haiku 4.5 | $1.00 | $5.00 | $6.00 | |
Qwen-Max | $1.60 | $6.40 | $8.00 | |
Gemini 3 Pro (≤200K) | $2.00 | $12.00 | $14.00 | |
GPT-5.2 | $1.75 | $14.00 | $15.75 | |
Claude Sonnet 4.5 | $3.00 | $15.00 | $18.00 | |
Gemini 3 Pro (>200K) | $4.00 | $18.00 | $22.00 | |
Claude Opus 4.5 | $5.00 | $25.00 | $30.00 | |
GPT-5.2 Pro | $21.00 | $168.00 | $189.00 |
Еще больше вариантов экономии
Разработчики бизнеса снижают расходы, убирая задержки крупных моделей, которые увеличивают расход токенов. Google подчеркивает: модель умеет регулировать глубину размышлений, тратя больше токенов на сложные задачи и меньше на простые запросы. По сравнению с Gemini 2.5 Pro она использует на 30% меньше токенов.
Чтобы сочетать мощь рассуждений с жесткими требованиями к задержкам, Google добавил параметр Thinking Level. Переключение между Low — для минимизации затрат и латентности в чатах — и High — для глубокого анализа данных. Это дает контроль для приложений с переменной скоростью, где "токены мышления" тратятся только на задачи, требующие логики уровня PhD.
Экономия выходит за рамки тарифов на токены. С встроенным Context Caching для больших статичных наборов данных, таких как юридические архивы или репозитории кода, повторные запросы обходятся на 90% дешевле. В связке с Batch API и его скидкой 50% общие расходы на агента Gemini падают ниже уровня флагманских конкурентов.
"Gemini 3 Flash сочетает отличные результаты в программировании и агентных задачах с низкой ценой, позволяя развертывать сложные рассуждения в массовых процессах без ограничений", — заявили в Google.
Предлагая сильные мультимодальные возможности по доступной цене, Google убеждает бизнес, обеспокоенный расходами на ИИ, выбирать свои модели, в особенности Gemini 3 Flash.
Отличные показатели в тестах
Как Gemini 3 Flash проявляет себя по сравнению с другими моделями?
Доши сообщила: модель набрала 78% в бенчмарке SWE-Bench Verified для кодинговых агентов, обогнав серию Gemini 2.5 и даже Gemini 3 Pro.

Для бизнеса это значит, что задачи по обслуживанию софта и исправлению ошибок теперь можно делегировать модели, которая быстрее и дешевле флагманов, без потери качества кода.
Модель преуспела и в других тестах: 81.2% в MMMU Pro, на уровне Gemini 3 Pro.
Хотя модели типа Flash обычно заточены под короткие задачи вроде генерации кода, Google утверждает: производительность Gemini 3 Flash в рассуждениях, использовании инструментов и мультимодальных сценариях идеальна для разработчиков, работающих с видеоанализом, извлечением данных и визуальными вопросами-ответами. Это позволяет строить умные приложения — от игровых помощников до экспериментов A/B, — где нужны быстрые отклики и глубокий анализ.
Отзывы первых пользователей
Ранние тестеры в целом довольны моделью, особенно ее тестами.
Что это значит для ИИ в бизнесе
Gemini 3 Flash как базовый движок для Google Search и приложения Gemini знаменует "флэшизацию" передового интеллекта. Делая рассуждения уровня Pro нормой, Google ставит ловушку более медленным конкурентам.
Встраивание в платформы вроде Google Antigravity говорит: Google продает не просто модель, а инфраструктуру для автономного бизнеса.
С тройной скоростью и 90% скидкой на кэширование контекста стратегия "сначала Gemini" выглядит финансово убедительно. В гонке за лидерство в ИИ Gemini 3 Flash может превратить вайб-кодинг из эксперимента в готовое решение для продакшена.