Gemini 3.1 Pro Preview лидирует в Intelligence Index

Предварительная версия Gemini 3.1 Pro от Google набрала 57 очков в Artificial Analysis Intelligence Index и обогнала Claude Opus 4.6 на четыре балла при вдвое меньшей стоимости теста. Модель лидирует в шести категориях, галлюцинации снизились на 38 п.п., но в агентных задачах и проверке фактов уступает конкурентам.

Предварительная версия Gemini 3.1 Pro от Google возглавила Artificial Analysis Intelligence Index, опередив Claude Opus 4.6 от Anthropic на четыре очка, при стоимости менее половины аналогов. Модель заняла первое место в шести из десяти категорий: агентный кодинг, знания, научное рассуждение, физика. Уровень галлюцинаций снизился на 38 процентных пунктов по сравнению с Gemini 3 Pro, где этот показатель был слабым. Индекс суммирует десять бенчмарков в единый рейтинг.

Полный запуск теста индекса на Gemini обошелся в 892 доллара, тогда как GPT-5.2 стоила 2304 доллара, а Claude Opus 4.6 — 2486 долларов. Gemini потратила всего 57 миллионов токенов, что гораздо меньше 130 миллионов у GPT-5.2. Открытые модели вроде GLM-5 обходятся еще выгоднее — 547 долларов. В реальных задачах для агентов Gemini 3.1 Pro все же уступает Claude Sonnet 4.6, Opus 4.6 и GPT-5.2.

Бенчмарки дают лишь общее представление. В нашем внутреннем тесте на проверку фактов 3.1 Pro выступила заметно хуже Opus 4.6 и GPT-5.2, подтвердив около четверти утверждений в первых проверках — даже меньше, чем Gemini 3 Pro, которая уже была слаба здесь. Выбирайте свои критерии оценки.

Gemini 3.1 Pro Preview возглавила Intelligence Index вдвое дешевле

Горячее

Seedance 2.5 от ByteDance: ИИ-видео до 30 секунд без склеек

Adobe добавила ИИ-агентов в Photoshop Premiere

Subquadratic утверждает, что решила ключевую проблему больших языковых моделей

Всё больше людей узнают новости от ИИ-чатботов, но доверие остаётся низким

Microsoft и Chevron строят гигантский газовый дата-центр

Сейчас в тренде