GPT-5.5 сравнялся с Claude Mythos в кибертестах AISI

Модель GPT-5.5 от OpenAI демонстрирует результаты на уровне Claude Mythos Preview от Anthropic в оценках киберспособностей, проведенных Британским институтом безопасности ИИ. Институт расценивает это как признак общей тенденции к усилению атакующих возможностей ИИ.

Британский институт безопасности ИИ (AISI) подверг GPT-5.5 серии тестов на кибератаки. Главный вывод: GPT-5.5 стала второй моделью после Claude Mythos Preview, которая полностью прошла многоэтапную симуляцию атаки на корпоративную сеть. В отдельных сложных задачах по безопасности GPT-5.5 даже немного опередила модель Anthropic.

Для AISI важно, что способности, впервые замеченные в Claude Mythos в апреле, не случайны, а следствие общих улучшений в автономности, логическом мышлении и программировании.

GPT-5.5 немного опережает Claude Mythos в отдельных экспертных задачах

AISI проверяет ИИ-модели на наборе из 95 задач в формате capture-the-flag на четырех уровнях сложности. Сложные задания, созданные совместно с компаниями по кибербезопасности Crystal Peak Security и Irregular, включают реверс-инжиниринг, создание эксплойтов для ошибок в памяти, криптографические атаки и распаковку замаскированного вредоносного ПО.

Диаграмма рассеяния со средним процентом успеха в продвинутых киберзадачах capture-the-flag для 10 моделей ИИ с августа 2025 по май 2026 года; GPT-5.5 лидирует с 71,4% на экспертных задачах и 99% на задачах уровня практиков. — Средний процент успеха в сложных киберзадачах. GPT-5.5 и Claude Mythos Preview почти сравнялись на экспертном уровне. Изображение: AISI Великобритании

На самом высоком уровне "Expert" GPT-5.5 достигла среднего успеха в 71,4%, сообщает AISI. У Claude Mythos Preview этот показатель составил 68,6%. Разница укладывается в статистическую погрешность, но GPT-5.5, возможно, оказалась сильнейшей из протестированных моделей. Для сравнения: GPT-5.4 набрала 52,4%, а Claude Opus 4.7 — 48,6%. Все передовые модели полностью справляются с базовыми задачами как минимум с февраля 2026 года.

Как и Mythos, GPT-5.5 прошла полную симуляцию сетевой атаки

Отдельные задания оценивают разовые навыки, но настоящие атаки состоят из цепочки действий. Чтобы это учесть, AISI применяет cyber ranges — виртуальные сетевые среды с несколькими серверами, сервисами и уязвимостями.

Симуляция "The Last Ones" (TLO) включает 32 этапа через четыре подсети и около 20 хостов. Агент ИИ начинает без учетных данных, ищет уязвимости, крадет пароли, перемещается по сети латерально и в итоге добирается до защищенной базы данных. По оценке AISI, эксперту-человеку на это уйдет примерно 20 часов.

GPT-5.5 полностью завершила TLO в 2 из 10 попыток. Claude Mythos Preview достигла того же в 3 из 10. Производительность растет с увеличением вычислительных ресурсов на вывод, отмечает AISI, и лучшие модели еще не достигли предела. Чем больше токенов модель тратит на размышления, тем выше шанс успешной атаки.

Линейный график среднего количества завершенных шагов в 32-этапной симуляции сети \ — Среднее число завершенных шагов в 32-этапной симуляции сети "The Last Ones" в зависимости от бюджета токенов. Изображение: AISI Великобритании

Однако в тестах не было активных защитников, систем мониторинга безопасности и последствий для действий, которые в реальности вызвали бы тревогу. Остается открытым вопрос, выдержат ли GPT-5.5 или Mythos хорошо защищенные системы. Но для слабо защищенных сетей такая возможность уже налицо.

Вторая симуляция "Cooling Tower", моделирующая атаку на систему промышленного управления, оказалась неподъемной для GPT-5.5. Ни одна модель пока не прошла этот 7-этапный сценарий. По данным AISI, GPT-5.5, как и Mythos, провалилась на начальных IT-этапах, а не на части с самой системой управления.

Универсальный jailbreak обошел все меры защиты

Помимо чистых возможностей, AISI проверил защитные механизмы GPT-5.5 для публичного использования. Исследователи нашли универсальный jailbreak, который сработал на всех запросах с вредоносными киберзадачами, заблокированных OpenAI, включая многоэтапные сценарии с агентами. На его создание ушло всего шесть часов.

OpenAI выпустил несколько обновлений для системы безопасности, но AISI не смог должным образом оценить финальную версию из-за проблемы с настройками развернутой модели. Это еще одно подтверждение, что jailbreak'и остаются серьезной уязвимостью больших языковых моделей, даже самых продвинутых.

Ключевое отличие от Mythos: GPT-5.5 уже доступна в ChatGPT и через API, в то время как Anthropic ограничивает Claude Mythos небольшой группой пользователей. Результаты AISI намекают, что Anthropic мог обойтись без лишней осторожности. Или критики правы, и медленный запуск связан не столько с этикой безопасности, сколько с ограничениями по вычислениям.

GPT-5.5 на равных с Claude Mythos в кибертестах AISI

GPT-5.5 немного опережает Claude Mythos в отдельных экспертных задачах

Как и Mythos, GPT-5.5 прошла полную симуляцию сетевой атаки

Универсальный jailbreak обошел все меры защиты

Горячее

Возможности OpenCode + Ollama + Qwen3-Coder локально

Краткий курс по ComfyUI для новичков

Amazon раздаёт Kiro Pro+ стартапам, чтобы раскачать ИИ для кодинга

5 открытых ИИ-моделей для редактирования изображений

Топ-5 CLI-инструментов для агентного кодирования

Сейчас в тренде