Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

OpenAI, Anthropic и Google делят лидерство в бенчмарке

Artificial Analysis представила Intelligence Index v4.0 с тесной борьбой на вершине: GPT-5.2 (xhigh) на 50 баллах, Claude Opus 4.5 на 49 и Gemini 3 Pro Preview на 48. Рейтинг охватывает категории Agents, Programming, Scientific Reasoning и General, с новыми тестами вроде AA-Omniscience, GDPval-AA и CritPt вместо старых.

6 января 2026 г.
1 мин
77

Artificial Analysis выпустила версию 4.0 Intelligence Index, который ранжирует модели ИИ по разным тестам. GPT-5.2 от OpenAI на настройке xhigh для логического мышления набрал 50 баллов и вышел в лидеры, Claude Opus 4.5 от Anthropic набрал 49, а Gemini 3 Pro Preview от Google — 48.

Рейтинг строится на четырех равнозначных категориях: Agents, Programming, Scientific Reasoning и General. Лучшие модели достигли пика в 50 баллов, в отличие от 73 в прошлой версии, так что разброс результатов вышел шире.

Обновленный индекс исключил три устаревших теста — AIME 2025, LiveCodeBench и MMLU-Pro — и добавил свежие: AA-Omniscience оценивает знания по 40 темам и выявляет галлюцинации, GDPval-AA проверяет навыки на реальных задачах из 44 профессий, CritPt фокусируется на проблемах физических исследований.

Artificial Analysis провела тесты самостоятельно по унифицированной схеме, полную методологию можно найти на их сайте.