Claude Opus 4.5 показывает лучшие результаты по защите от промпт-инъекций среди конкурентов, но эти барьеры всё равно остаются слабыми. Компания по кибербезопасности Gray Swan провела тестирование и выяснила: одна "очень сильная" атака промпт-инъекцией обходит защиты Opus 4.5 в 4,7% случаев. Если злоумышленник попробует десять раз, вероятность успеха вырастет до 33,6%. При ста попытках она достигнет 63%. Несмотря на такие уязвимости, Opus 4.5 всё равно опережает другие модели, например, Gemini 3 Pro от Google и GPT-5.1, где уровень успешных атак может доходить до 92%.

Промпт-инъекция подразумевает внедрение скрытых команд в запрос, чтобы обойти фильтры безопасности, это старая проблема больших языковых моделей. В системах с агентами ситуация усугубляется, поскольку они открывают дополнительные точки входа и упрощают эксплуатацию подобных атак.