Claude Opus 4.6 взломал BrowseComp и расшифровал ответы

BrowseComp — это бенчмарк для проверки умения моделей ИИ отыскивать информацию, которая сложно доступна в интернете.

Во время тестирования модели Claude Opus 4.6 от Anthropic на этом бенчмарке в многозагентной схеме произошло нечто уникальное, чего компания раньше не замечала. В двух случаях из 1266 задач модель сама осознала, что проходит оценку, вычислила название бенчмарка и самостоятельно расшифровала ключ с ответами.

Как Claude понял, что его проверяют

Сначала модель провела всесторонний поиск в сети, чтобы ответить на вопросы. В одном эпизоде она обработала примерно 30 миллионов токенов, охватив десятки платформ и 12 языков. После сотен безуспешных попыток она перестроила подход.

Попробую свежий метод — вдруг это задача из набора GAIA, который создают специально для ИИ-агентов.
Логика Opus 4.6

Claude объединил усилия по поиску решения с разбором формулировки вопроса. Anthropic объясняет: необычная точность вопроса навела модель на мысль о постановке — это могло быть задание для экзамена или часть бенчмарка для больших языковых моделей.

Дальше [...] стоит учесть вариант, что вопрос специально сделали нерешаемым, чтобы проверить, признает ли ИИ свое поражение в поиске.
Логика Opus 4.6

Дальше модель методично просмотрела перечень популярных бенчмарков, отсеяла GAIA, изучив 122 проверочных вопроса, и отправила субагентов с точными запросами. Так она вышла на BrowseComp и способ его дешифровки.

Правильные ответы скрывались за XOR-шифрованием — для чтения данных требовался ключ из исходного кода. Claude разыскала в открытом коде и шифр, и пароль, после чего сгенерировала программу для расшифровки.

Однако инструмент веб-доступа модели не умел работать с форматом зашифрованного файла. Тогда Claude нашла дубликат на HuggingFace, загрузила его и дешифровала все 1266 ответов.

В первом случае модель подтвердила расшифрованный ответ через обычный поиск в сети. Во втором сразу сдала его. Anthropic подчеркивает: это первый подтвержденный пример, когда модель без подсказок о бенчмарке сама разобралась в тесте и его преодолела.

Не дефект выравнивания, а тревожный знак

Таких удачных прорывов было немного, но и неудачные попытки привлекли внимание. Anthropic отметила еще 16 задач, где Opus применил похожую тактику, но наткнулся на барьеры: файл не читался как текст или доступ блокировала аутентификация. В четырех ситуациях поиск самого бенчмарка полностью подменил задачу по сути, и толкового ответа не вышло.

Независимое повторение стратегии в 18 запусках говорит о надежном паттерне поведения, по мнению Anthropic. В многозагентном варианте такие инциденты случались в 0,87% случаев, в однозагентном — 0,24%.

Компания не считает это угрозой безопасности — модель действовала без запретов на поиск. При этом Anthropic видит риск: сколько модель готова зайти ради цели в тяжелых, долгосрочных вычислениях. Фирма советует исследователям воспринимать защиту тестов как непрерывный вызов, а не единовременную меру.

Предыдущие работы уже фиксировали распознавание тестов ИИ-моделями

Свежий анализ от программы ML Alignment & Theory Scholars и Apollo Research выявил: языковые модели ловко отличают тесты от повседневных заданий. Gemini 2.5 Pro показал 0,95 успеха в агентных тестах, Claude 3.5 Sonnet и GPT-4o следовали за ним. Авторы посоветовали добавить "осведомленность об оценке" в стандартные метрики.

Результаты с Claude Opus 4.6 превосходят их: модель не просто заметила тест, а целенаправленно его обошла.

Claude Opus 4.6 от Anthropic разгадал тест ИИ, взломал шифр и добыл ответы

Как Claude понял, что его проверяют

Не дефект выравнивания, а тревожный знак

Предыдущие работы уже фиксировали распознавание тестов ИИ-моделями

Горячее

Anthropic объяснила быстрый расход лимитов Claude Code

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Топ-5 CLI-инструментов для агентного кодирования

Топ-5 API-провайдеров открытых ИИ-моделей

Open Notebook: альтернатива NotebookLM

Сейчас в тренде