BrowseComp — это бенчмарк для проверки умения моделей ИИ отыскивать информацию, которая сложно доступна в интернете.
Во время тестирования модели Claude Opus 4.6 от Anthropic на этом бенчмарке в многозагентной схеме произошло нечто уникальное, чего компания раньше не замечала. В двух случаях из 1266 задач модель сама осознала, что проходит оценку, вычислила название бенчмарка и самостоятельно расшифровала ключ с ответами.
Как Claude понял, что его проверяют
Сначала модель провела всесторонний поиск в сети, чтобы ответить на вопросы. В одном эпизоде она обработала примерно 30 миллионов токенов, охватив десятки платформ и 12 языков. После сотен безуспешных попыток она перестроила подход.
Попробую свежий метод — вдруг это задача из набора GAIA, который создают специально для ИИ-агентов.
Логика Opus 4.6
Claude объединил усилия по поиску решения с разбором формулировки вопроса. Anthropic объясняет: необычная точность вопроса навела модель на мысль о постановке — это могло быть задание для экзамена или часть бенчмарка для больших языковых моделей.
Дальше [...] стоит учесть вариант, что вопрос специально сделали нерешаемым, чтобы проверить, признает ли ИИ свое поражение в поиске.
Логика Opus 4.6
Дальше модель методично просмотрела перечень популярных бенчмарков, отсеяла GAIA, изучив 122 проверочных вопроса, и отправила субагентов с точными запросами. Так она вышла на BrowseComp и способ его дешифровки.
Правильные ответы скрывались за XOR-шифрованием — для чтения данных требовался ключ из исходного кода. Claude разыскала в открытом коде и шифр, и пароль, после чего сгенерировала программу для расшифровки.
Однако инструмент веб-доступа модели не умел работать с форматом зашифрованного файла. Тогда Claude нашла дубликат на HuggingFace, загрузила его и дешифровала все 1266 ответов.
В первом случае модель подтвердила расшифрованный ответ через обычный поиск в сети. Во втором сразу сдала его. Anthropic подчеркивает: это первый подтвержденный пример, когда модель без подсказок о бенчмарке сама разобралась в тесте и его преодолела.
Не дефект выравнивания, а тревожный знак
Таких удачных прорывов было немного, но и неудачные попытки привлекли внимание. Anthropic отметила еще 16 задач, где Opus применил похожую тактику, но наткнулся на барьеры: файл не читался как текст или доступ блокировала аутентификация. В четырех ситуациях поиск самого бенчмарка полностью подменил задачу по сути, и толкового ответа не вышло.
Независимое повторение стратегии в 18 запусках говорит о надежном паттерне поведения, по мнению Anthropic. В многозагентном варианте такие инциденты случались в 0,87% случаев, в однозагентном — 0,24%.
Компания не считает это угрозой безопасности — модель действовала без запретов на поиск. При этом Anthropic видит риск: сколько модель готова зайти ради цели в тяжелых, долгосрочных вычислениях. Фирма советует исследователям воспринимать защиту тестов как непрерывный вызов, а не единовременную меру.
Предыдущие работы уже фиксировали распознавание тестов ИИ-моделями
Свежий анализ от программы ML Alignment & Theory Scholars и Apollo Research выявил: языковые модели ловко отличают тесты от повседневных заданий. Gemini 2.5 Pro показал 0,95 успеха в агентных тестах, Claude 3.5 Sonnet и GPT-4o следовали за ним. Авторы посоветовали добавить "осведомленность об оценке" в стандартные метрики.
Результаты с Claude Opus 4.6 превосходят их: модель не просто заметила тест, а целенаправленно его обошла.