EVMbench: ИИ эксплуатирует 72% уязвимостей контрактов

Новый бенчмарк: ИИ-агенты сами эксплуатируют уязвимости контрактов

OpenAI и Paradigm представили EVMbench — тест для ИИ-агентов на выявление, исправление и эксплуатацию уязвимостей в смарт-контрактах Ethereum на основе 120 реальных случаев. GPT-5.3-Codex справилась с 72% атак и 41,5% фиксов, а с подсказками показатели взлетели до 96% и 94%. Это сулит прогресс в безопасности блокчейна, но повышает риски для $100 млрд активов.

19 февраля 2026 г.

2 мин

OpenAI вместе с инвестиционной компанией Paradigm в сфере криптовалют разработали EVMbench — тест для оценки того, насколько ИИ-агенты умеют выявлять, устранять и использовать уязвимости безопасности в смарт-контрактах Ethereum. В набор данных вошли 120 уязвимостей, взятых из 40 реальных проверок безопасности.

В условиях, максимально близких к реальным, ИИ-агенты работают с локальной сетью блокчейна и выполняют атаки полностью без посторонней помощи.

Среди протестированных моделей лучшую результативность по использованию уязвимостей показала GPT-5.3-Codex — 72 процента успеха, а по исправлению — 41,5 процента. Что касается обнаружения, здесь впереди Claude Opus 4.6 с показателем 45,6 процента.

Исследователи подчеркивают: настоящая проблема для ИИ-агентов не в использовании или устранении уязвимостей, а в их поиске среди больших объемов кода. Если дать подсказку о месте уязвимости, доля успешных атак вырастает с 63 до 96 процентов, а исправлений — с 39 до 94 процентов.

Сейчас в смарт-контрактах хранится свыше 100 миллиардов долларов, поэтому разработчики видят здесь шанс улучшить защиту, но и серьезную угрозу, если подобные навыки ИИ окажутся у злоумышленников.

Новый бенчмарк: ИИ-агенты сами эксплуатируют уязвимости контрактов

Горячее

Возможности OpenCode + Ollama + Qwen3-Coder локально

Краткий курс по ComfyUI для новичков

Разбор 10 агентных проектов GitHub для форкинга

Топ-7 планов для вайб-кодинга

Топ-5 API-провайдеров открытых ИИ-моделей

Сейчас в тренде