Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

Gemini 3.1 Pro Preview возглавила Intelligence Index вдвое дешевле

Предварительная версия Gemini 3.1 Pro от Google набрала 57 очков в Artificial Analysis Intelligence Index и обогнала Claude Opus 4.6 на четыре балла при вдвое меньшей стоимости теста. Модель лидирует в шести категориях, галлюцинации снизились на 38 п.п., но в агентных задачах и проверке фактов уступает конкурентам.

19 часов назад
2 мин
25

Предварительная версия Gemini 3.1 Pro от Google возглавила Artificial Analysis Intelligence Index, опередив Claude Opus 4.6 от Anthropic на четыре очка, при стоимости менее половины аналогов. Модель заняла первое место в шести из десяти категорий: агентный кодинг, знания, научное рассуждение, физика. Уровень галлюцинаций снизился на 38 процентных пунктов по сравнению с Gemini 3 Pro, где этот показатель был слабым. Индекс суммирует десять бенчмарков в единый рейтинг.

Полный запуск теста индекса на Gemini обошелся в 892 доллара, тогда как GPT-5.2 стоила 2304 доллара, а Claude Opus 4.6 — 2486 долларов. Gemini потратила всего 57 миллионов токенов, что гораздо меньше 130 миллионов у GPT-5.2. Открытые модели вроде GLM-5 обходятся еще выгоднее — 547 долларов. В реальных задачах для агентов Gemini 3.1 Pro все же уступает Claude Sonnet 4.6, Opus 4.6 и GPT-5.2.

Бенчмарки дают лишь общее представление. В нашем внутреннем тесте на проверку фактов 3.1 Pro выступила заметно хуже Opus 4.6 и GPT-5.2, подтвердив около четверти утверждений в первых проверках — даже меньше, чем Gemini 3 Pro, которая уже была слаба здесь. Выбирайте свои критерии оценки.