Google DeepMind представила предварительную версию Gemini 3.1 Flash-Lite — самой быстрой и доступной модели из семейства Gemini 3.
По оценке Artificial Analysis, модель достигла 34 баллов в их индексе интеллекта — это прибавка в 12 пунктов по сравнению с Gemini 2.5 Flash-Lite. Такой прорыв в производительности не сказался на скорости: она выдаёт свыше 360 токенов в секунду при среднем времени ответа 5,1 секунды.
В мультимодальных испытаниях Gemini 3.1 Flash-Lite опережает сильных соперников вроде Claude Opus 4.6 и Kimi K2.5, показав 78% на тесте MMMU-Pro. Artificial Analysis подчёркивает слабый прогресс в использовании инструментов. Размер окна контекста остался прежним — один миллион токенов.
В таблице лидеров Arena.ai, где места определяют по выбору людей в анонимных тестах, у Gemini 3.1 Flash-Lite рейтинг Elo 1432. Среди лёгких моделей она лучшая по рассуждениям и мультимодальному восприятию: 86,9% на GPQA Diamond для научных знаний и 76,8% на MMMU Pro для мультимодального анализа и логики. Эти цифры выше, чем у массивных Gemini 2.5 Flash прошлого поколения.
Google заявляет, что модель формирует первый токен ответа в 2,5 раза быстрее и генерирует текст на 45% проворнее Gemini 2.5 Flash (не Flash-Lite — Flash крупнее). Разработчики регулируют глубину размышлений ИИ, чтобы он справлялся с массовыми простыми операциями вроде переводов или с тяжёлыми задачами по сборке интерфейсов.
Улучшения скорости и качества требуют доплаты. Стоимость вывода увеличилась более чем втрое: теперь $0.25 за миллион входных токенов (было $0.10 в версии 2.5) и $1.50 за миллион выходных (было $0.40).
| Benchmark | Details of | Gemini 3.1 Flash-Lite (High) | Gemini 2.5 Flash (Dynamic) | Gemini 2.5 Flash-Lite (Dynamic) | GPT-5 mini (High) | Claude 4.5 Haiku (Extended Thinking) | Grok 4.1 Fast (Reasoning) |
|---|---|---|---|---|---|---|---|
| Input price ($/1M tokens, no caching) | Lower is better | $0.25 | $0.30 | $0.10 | $0.25 | $1.00 | $0.20 |
| Output price ($/1M tokens) | Lower is better | $1.50 | $2.50 | $0.40 | $2.00 | $5.00 | $0.50 |
| Output speed (Tokens/s) | 363 | 249 | 366 | 71 | 108 | 145 | |
| Humanity's Last Exam (Academic reasoning, full set, text + MM) | No tools | 16.0% | 11.0% | 6.9% | 16.7% | 9.7% | 17.6% |
| GPQA Diamond (Scientific knowledge) | No tools | 86.9% | 82.8% | 66.7% | 82.3% | 73.0% | 84.3% |
| MMMU-Pro (Multimodal understanding and reasoning) | No tools | 76.8% | 66.7% | 51.0% | 74.1% | 58.0% | 63.0% |
| CharXiv Reasoning (Information synthesis from complex charts) | 73.2% | 63.7% | 55.5% | 75.5% (+ python) | 61.7% | 31.6% | |
| Video-MMMU (Knowledge acquisition from videos) | 84.8% | 79.2% | 60.7% | 82.5% | - | 74.6% | |
| SimpleQA Verified (Parametric knowledge) | 43.3% | 28.1% | 11.5% | 9.5% | 5.5% | 19.5% | |
| FACTS Benchmark Suite (Factuality across grounding, parametric, search, and MM) | 40.6% | 50.4% | 17.9% | 33.7% | 18.6% | 42.1% | |
| MMMLU (Multilingual Q&A) | 88.9% | 86.6% | 84.5% | 84.9% | 83.0% | 86.8% | |
| LiveCodeBench (Code generation, UI: 1/1/2025-5/1/2025) | 72.0% | 62.6% | 34.3% | 80.4% | 53.2% | 76.5% | |
| MRCR v2 (8-needle) (Long context performance) | 128k (average) | 60.1% | 54.3% | 30.6% | 52.5% | 35.3% | 54.6% |
| 1M (pointwise) | 12.3% | 21.0% | 5.4% | Not Supported | Not Supported | 6.1% |
Модель открыта для проб в Google AI Studio и Vertex AI. Подробные итоги тестов размещены на Artificial Analysis и Arena.ai Leaderboard.