Предварительная версия Gemini 3.1 Pro от Google возглавила Artificial Analysis Intelligence Index, опередив Claude Opus 4.6 от Anthropic на четыре очка, при стоимости менее половины аналогов. Модель заняла первое место в шести из десяти категорий: агентный кодинг, знания, научное рассуждение, физика. Уровень галлюцинаций снизился на 38 процентных пунктов по сравнению с Gemini 3 Pro, где этот показатель был слабым. Индекс суммирует десять бенчмарков в единый рейтинг.
Полный запуск теста индекса на Gemini обошелся в 892 доллара, тогда как GPT-5.2 стоила 2304 доллара, а Claude Opus 4.6 — 2486 долларов. Gemini потратила всего 57 миллионов токенов, что гораздо меньше 130 миллионов у GPT-5.2. Открытые модели вроде GLM-5 обходятся еще выгоднее — 547 долларов. В реальных задачах для агентов Gemini 3.1 Pro все же уступает Claude Sonnet 4.6, Opus 4.6 и GPT-5.2.
Бенчмарки дают лишь общее представление. В нашем внутреннем тесте на проверку фактов 3.1 Pro выступила заметно хуже Opus 4.6 и GPT-5.2, подтвердив около четверти утверждений в первых проверках — даже меньше, чем Gemini 3 Pro, которая уже была слаба здесь. Выбирайте свои критерии оценки.