Бенчмарки должны объективно оценивать возможности моделей ИИ. Но анализ от Epoch AI показывает: итоговые результаты сильно зависят от условий тестирования. Организация выявила кучу переменных, которые редко афишируют, хотя они заметно меняют показатели.
Специалисты разделили источники проблем на две группы: настройка бенчмарка (как именно запускают тест) и доступ к модели (как ее вызывают для проверки). В обоих случаях полно лазеек, которые искажают финальные цифры, отмечает Epoch AI.
Разные реализации — разные результаты
Даже для проверенных тестов вроде GPQA-Diamond библиотеки применяют разные формулировки промтов и настройки температуры. Исследователи сравнили четыре популярные библиотеки и обнаружили расхождения повсюду: EleutherAI работает с температурой 0.0, OpenAI simple-evals — с 0.5, а OpenAI gpt-oss по умолчанию берет 1.0. В экспериментах одна модель показывала от 74 до 80 процентов в зависимости от конфигурации.
Сложные бенчмарки для агентов, такие как SWE-bench Verified, страдают еще сильнее. Здесь ключевую роль играет scaffold — ПО, которое управляет ИИ-агентом и дает ему инструменты. Смена scaffold дает разницу до 11 процентных пунктов для GPT-5 и до 15 пунктов для Kimi K2 Thinking, по данным Epoch AI. Выбор scaffold оказывает самое сильное влияние на общую производительность
.
Провайдер API дает наибольшие скачки показателей
Выбор провайдера API приводит к самым большим колебаниям в результатах оценок. Epoch AI проверила несколько открытых моделей на разных провайдерах и нашла серьезные различия для одних и тех же моделей.
Проблемы возникают из-за лимитов скорости, пустых или обрезанных ответов, меньших лимитов токенов, чем заявлено, и неверно передаваемых параметров. MiniMax сообщает о разнице в 23 процентных пункта по tau-bench между своей реализацией API и стандартными интерфейсами.
Свежие модели вроде GLM-4.6 обслуживают хуже, чем устоявшиеся, типа Qwen3, выяснили исследователи. Из-за этого сразу после релиза модели трудно провести нормальную оценку — как раз в момент пикового интереса.
Среду тестирования можно обмануть
Среда выполнения тестов тоже полна ловушек. OpenAI смогла протестировать только 477 из 500 задач SWE-bench для o3 и o4-mini из-за проблем с инфраструктурой
. Бывает, что в окружении есть критические баги, позволяющие агентам взломать оценку
, говорит Epoch AI. С другой стороны, ошибки могут полностью блокировать выполнение задач.
Оценки с доступом агентов в веб особенно уязвимы. В худшем сценарии агент находит исходный датасет или страницы с частями задач.
Недавний пример — кодинговая модель IQuest-Coder с 40 миллиардами параметров: она обошла гораздо более крупные аналоги в SWE-bench. Бенчмарк проверяет, сможет ли ИИ исправить реальные баги из репозиториев GitHub. Но разработчик Xeophon выяснил в X, что тестовое окружение настроили криво и включило полную историю Git с будущими коммитами.
Модель просто прочитала готовые решения из истории версий вместо самостоятельного решения задач. Тем не менее IQuest-Coder быстро набрала популярность в первые дни после релиза — яркий пример, как крутые результаты бенчмарков разлетаются вирусно, пока не всплывут методологические косяки.
Проблемы надежности бенчмарков уходят корнями глубоко
С бенчмарками ИИ давно не все гладко. Предыдущее независимое исследование показало, что o1 от OpenAI дает сильно разные результаты в програмных тестах в зависимости от фреймворка. Анализ 445 научных работ по бенчмаркам выявил базовые методологические слабости: почти все тесты страдали от проблем с определениями, выбором задач или статистикой.
Исследователи предупреждают: мелкие переменные накапливаются по всему стеку. В итоге цифры сильно расходятся с теми, что публикуют разработчики моделей. Для независимых оценщиков это значит уйму трудоемких и дорогих экспериментов, чтобы воспроизвести известные результаты — главная причина, почему проверки открытых моделей тянутся так долго.
Проблемы с прозрачностью касаются и финансирования бенчмарков: OpenAI тайно спонсировала разработку крупного математического бенчмарка FrontierMath от Epoch AI.