OpenAI вместе с инвестиционной компанией Paradigm в сфере криптовалют разработали EVMbench — тест для оценки того, насколько ИИ-агенты умеют выявлять, устранять и использовать уязвимости безопасности в смарт-контрактах Ethereum. В набор данных вошли 120 уязвимостей, взятых из 40 реальных проверок безопасности.
В условиях, максимально близких к реальным, ИИ-агенты работают с локальной сетью блокчейна и выполняют атаки полностью без посторонней помощи.
Среди протестированных моделей лучшую результативность по использованию уязвимостей показала GPT-5.3-Codex — 72 процента успеха, а по исправлению — 41,5 процента. Что касается обнаружения, здесь впереди Claude Opus 4.6 с показателем 45,6 процента.
Исследователи подчеркивают: настоящая проблема для ИИ-агентов не в использовании или устранении уязвимостей, а в их поиске среди больших объемов кода. Если дать подсказку о месте уязвимости, доля успешных атак вырастает с 63 до 96 процентов, а исправлений — с 39 до 94 процентов.
Сейчас в смарт-контрактах хранится свыше 100 миллиардов долларов, поэтому разработчики видят здесь шанс улучшить защиту, но и серьезную угрозу, если подобные навыки ИИ окажутся у злоумышленников.