Тройка лидеров в Artificial Analysis Intelligence Index v4.0

OpenAI, Anthropic и Google делят лидерство в бенчмарке

Artificial Analysis представила Intelligence Index v4.0 с тесной борьбой на вершине: GPT-5.2 (xhigh) на 50 баллах, Claude Opus 4.5 на 49 и Gemini 3 Pro Preview на 48. Рейтинг охватывает категории Agents, Programming, Scientific Reasoning и General, с новыми тестами вроде AA-Omniscience, GDPval-AA и CritPt вместо старых.

6 января 2026 г.

1 мин

Artificial Analysis выпустила версию 4.0 Intelligence Index, который ранжирует модели ИИ по разным тестам. GPT-5.2 от OpenAI на настройке xhigh для логического мышления набрал 50 баллов и вышел в лидеры, Claude Opus 4.5 от Anthropic набрал 49, а Gemini 3 Pro Preview от Google — 48.

Рейтинг строится на четырех равнозначных категориях: Agents, Programming, Scientific Reasoning и General. Лучшие модели достигли пика в 50 баллов, в отличие от 73 в прошлой версии, так что разброс результатов вышел шире.

Обновленный индекс исключил три устаревших теста — AIME 2025, LiveCodeBench и MMLU-Pro — и добавил свежие: AA-Omniscience оценивает знания по 40 темам и выявляет галлюцинации, GDPval-AA проверяет навыки на реальных задачах из 44 профессий, CritPt фокусируется на проблемах физических исследований.

Artificial Analysis провела тесты самостоятельно по унифицированной схеме, полную методологию можно найти на их сайте.

OpenAI, Anthropic и Google делят лидерство в бенчмарке

Горячее

Anthropic открыла офис в Сеуле и новые партнерства в Корее

Seedance 2.5 от ByteDance: ИИ-видео до 30 секунд без склеек

Adobe добавила ИИ-агентов в Photoshop Premiere

Личный ИИ-ассистент на Python: опыт создания с GPT-4o

Как быстро запустить дата-центр? Дайте ему гибкость в энергопотреблении

Сейчас в тренде