Google DeepMind выпустила Gemini 3.1 Flash-Lite: +12 в индексе

Google DeepMind представила предварительную версию Gemini 3.1 Flash-Lite — самой быстрой и доступной модели из семейства Gemini 3.

По оценке Artificial Analysis, модель достигла 34 баллов в их индексе интеллекта — это прибавка в 12 пунктов по сравнению с Gemini 2.5 Flash-Lite. Такой прорыв в производительности не сказался на скорости: она выдаёт свыше 360 токенов в секунду при среднем времени ответа 5,1 секунды.

В мультимодальных испытаниях Gemini 3.1 Flash-Lite опережает сильных соперников вроде Claude Opus 4.6 и Kimi K2.5, показав 78% на тесте MMMU-Pro. Artificial Analysis подчёркивает слабый прогресс в использовании инструментов. Размер окна контекста остался прежним — один миллион токенов.

В таблице лидеров Arena.ai, где места определяют по выбору людей в анонимных тестах, у Gemini 3.1 Flash-Lite рейтинг Elo 1432. Среди лёгких моделей она лучшая по рассуждениям и мультимодальному восприятию: 86,9% на GPQA Diamond для научных знаний и 76,8% на MMMU Pro для мультимодального анализа и логики. Эти цифры выше, чем у массивных Gemini 2.5 Flash прошлого поколения.

Google заявляет, что модель формирует первый токен ответа в 2,5 раза быстрее и генерирует текст на 45% проворнее Gemini 2.5 Flash (не Flash-Lite — Flash крупнее). Разработчики регулируют глубину размышлений ИИ, чтобы он справлялся с массовыми простыми операциями вроде переводов или с тяжёлыми задачами по сборке интерфейсов.

Улучшения скорости и качества требуют доплаты. Стоимость вывода увеличилась более чем втрое: теперь $0.25 за миллион входных токенов (было $0.10 в версии 2.5) и $1.50 за миллион выходных (было $0.40).

Benchmark	Details of	Gemini 3.1 Flash-Lite (High)	Gemini 2.5 Flash (Dynamic)	Gemini 2.5 Flash-Lite (Dynamic)	GPT-5 mini (High)	Claude 4.5 Haiku (Extended Thinking)	Grok 4.1 Fast (Reasoning)
Input price ($/1M tokens, no caching)	Lower is better	$0.25	$0.30	$0.10	$0.25	$1.00	$0.20
Output price ($/1M tokens)	Lower is better	$1.50	$2.50	$0.40	$2.00	$5.00	$0.50
Output speed (Tokens/s)		363	249	366	71	108	145
Humanity's Last Exam (Academic reasoning, full set, text + MM)	No tools	16.0%	11.0%	6.9%	16.7%	9.7%	17.6%
GPQA Diamond (Scientific knowledge)	No tools	86.9%	82.8%	66.7%	82.3%	73.0%	84.3%
MMMU-Pro (Multimodal understanding and reasoning)	No tools	76.8%	66.7%	51.0%	74.1%	58.0%	63.0%
CharXiv Reasoning (Information synthesis from complex charts)		73.2%	63.7%	55.5%	75.5% (+ python)	61.7%	31.6%
Video-MMMU (Knowledge acquisition from videos)		84.8%	79.2%	60.7%	82.5%	-	74.6%
SimpleQA Verified (Parametric knowledge)		43.3%	28.1%	11.5%	9.5%	5.5%	19.5%
FACTS Benchmark Suite (Factuality across grounding, parametric, search, and MM)		40.6%	50.4%	17.9%	33.7%	18.6%	42.1%
MMMLU (Multilingual Q&A)		88.9%	86.6%	84.5%	84.9%	83.0%	86.8%
LiveCodeBench (Code generation, UI: 1/1/2025-5/1/2025)		72.0%	62.6%	34.3%	80.4%	53.2%	76.5%
MRCR v2 (8-needle) (Long context performance)	128k (average)	60.1%	54.3%	30.6%	52.5%	35.3%	54.6%
	1M (pointwise)	12.3%	21.0%	5.4%	Not Supported	Not Supported	6.1%

Модель открыта для проб в Google AI Studio и Vertex AI. Подробные итоги тестов размещены на Artificial Analysis и Arena.ai Leaderboard.

Gemini 3.1 Flash-Lite: умнее на 12 баллов, цена втрое выше

Горячее

Anthropic объяснила быстрый расход лимитов Claude Code

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Топ-5 CLI-инструментов для агентного кодирования

Топ-5 API-провайдеров открытых ИИ-моделей

Open Notebook: альтернатива NotebookLM

Сейчас в тренде