Artificial Analysis выпустила версию 4.0 Intelligence Index, который ранжирует модели ИИ по разным тестам. GPT-5.2 от OpenAI на настройке xhigh для логического мышления набрал 50 баллов и вышел в лидеры, Claude Opus 4.5 от Anthropic набрал 49, а Gemini 3 Pro Preview от Google — 48.
Рейтинг строится на четырех равнозначных категориях: Agents, Programming, Scientific Reasoning и General. Лучшие модели достигли пика в 50 баллов, в отличие от 73 в прошлой версии, так что разброс результатов вышел шире.
Обновленный индекс исключил три устаревших теста — AIME 2025, LiveCodeBench и MMLU-Pro — и добавил свежие: AA-Omniscience оценивает знания по 40 темам и выявляет галлюцинации, GDPval-AA проверяет навыки на реальных задачах из 44 профессий, CritPt фокусируется на проблемах физических исследований.
Artificial Analysis провела тесты самостоятельно по унифицированной схеме, полную методологию можно найти на их сайте.