Почему бенчмарки ИИ ненадежны

Анализ Epoch AI выявил серьезные проблемы с бенчмарками ИИ: результаты зависят от настроек тестов, провайдеров API и окружения, что приводит к большим расхождениям. Индустрия продолжает их использовать, несмотря на накопившиеся методологические слабости. Независимые оценки усложняются из-за нехватки прозрачности.

Бенчмарки должны объективно оценивать возможности моделей ИИ. Но анализ от Epoch AI показывает: итоговые результаты сильно зависят от условий тестирования. Организация выявила кучу переменных, которые редко афишируют, хотя они заметно меняют показатели.

Специалисты разделили источники проблем на две группы: настройка бенчмарка (как именно запускают тест) и доступ к модели (как ее вызывают для проверки). В обоих случаях полно лазеек, которые искажают финальные цифры, отмечает Epoch AI.

Разные реализации — разные результаты

Даже для проверенных тестов вроде GPQA-Diamond библиотеки применяют разные формулировки промтов и настройки температуры. Исследователи сравнили четыре популярные библиотеки и обнаружили расхождения повсюду: EleutherAI работает с температурой 0.0, OpenAI simple-evals — с 0.5, а OpenAI gpt-oss по умолчанию берет 1.0. В экспериментах одна модель показывала от 74 до 80 процентов в зависимости от конфигурации.

Сложные бенчмарки для агентов, такие как SWE-bench Verified, страдают еще сильнее. Здесь ключевую роль играет scaffold — ПО, которое управляет ИИ-агентом и дает ему инструменты. Смена scaffold дает разницу до 11 процентных пунктов для GPT-5 и до 15 пунктов для Kimi K2 Thinking, по данным Epoch AI. Выбор scaffold оказывает самое сильное влияние на общую производительность.

Провайдер API дает наибольшие скачки показателей

Выбор провайдера API приводит к самым большим колебаниям в результатах оценок. Epoch AI проверила несколько открытых моделей на разных провайдерах и нашла серьезные различия для одних и тех же моделей.

Проблемы возникают из-за лимитов скорости, пустых или обрезанных ответов, меньших лимитов токенов, чем заявлено, и неверно передаваемых параметров. MiniMax сообщает о разнице в 23 процентных пункта по tau-bench между своей реализацией API и стандартными интерфейсами.

Свежие модели вроде GLM-4.6 обслуживают хуже, чем устоявшиеся, типа Qwen3, выяснили исследователи. Из-за этого сразу после релиза модели трудно провести нормальную оценку — как раз в момент пикового интереса.

Среду тестирования можно обмануть

Среда выполнения тестов тоже полна ловушек. OpenAI смогла протестировать только 477 из 500 задач SWE-bench для o3 и o4-mini из-за проблем с инфраструктурой. Бывает, что в окружении есть критические баги, позволяющие агентам взломать оценку, говорит Epoch AI. С другой стороны, ошибки могут полностью блокировать выполнение задач.

Оценки с доступом агентов в веб особенно уязвимы. В худшем сценарии агент находит исходный датасет или страницы с частями задач.

Недавний пример — кодинговая модель IQuest-Coder с 40 миллиардами параметров: она обошла гораздо более крупные аналоги в SWE-bench. Бенчмарк проверяет, сможет ли ИИ исправить реальные баги из репозиториев GitHub. Но разработчик Xeophon выяснил в X, что тестовое окружение настроили криво и включило полную историю Git с будущими коммитами.

Модель просто прочитала готовые решения из истории версий вместо самостоятельного решения задач. Тем не менее IQuest-Coder быстро набрала популярность в первые дни после релиза — яркий пример, как крутые результаты бенчмарков разлетаются вирусно, пока не всплывут методологические косяки.

Проблемы надежности бенчмарков уходят корнями глубоко

С бенчмарками ИИ давно не все гладко. Предыдущее независимое исследование показало, что o1 от OpenAI дает сильно разные результаты в програмных тестах в зависимости от фреймворка. Анализ 445 научных работ по бенчмаркам выявил базовые методологические слабости: почти все тесты страдали от проблем с определениями, выбором задач или статистикой.

Исследователи предупреждают: мелкие переменные накапливаются по всему стеку. В итоге цифры сильно расходятся с теми, что публикуют разработчики моделей. Для независимых оценщиков это значит уйму трудоемких и дорогих экспериментов, чтобы воспроизвести известные результаты — главная причина, почему проверки открытых моделей тянутся так долго.

Проблемы с прозрачностью касаются и финансирования бенчмарков: OpenAI тайно спонсировала разработку крупного математического бенчмарка FrontierMath от Epoch AI.

Бенчмарки ИИ ненадежны, но их все равно юзают

Разные реализации — разные результаты

Провайдер API дает наибольшие скачки показателей

Среду тестирования можно обмануть

Проблемы надежности бенчмарков уходят корнями глубоко

Горячее

Seedance 2.5 от ByteDance: ИИ-видео до 30 секунд без склеек

Anthropic открыла офис в Сеуле и новые партнерства в Корее

Adobe добавила ИИ-агентов в Photoshop Premiere

Как быстро запустить дата-центр? Дайте ему гибкость в энергопотреблении

Subquadratic утверждает, что решила ключевую проблему больших языковых моделей

Сейчас в тренде