OpenAI представила EVMbench: ИИ проверят на умение взламывать смарт-контракты
Технологический гигант OpenAI в партнерстве с венчурной фирмой Paradigm запустил проект EVMbench. Это специализированный бенчмарк (набор тестов), созданный для измерения навыков ИИ-агентов в области безопасности смарт-контрактов: от поиска багов до написания рабочих эксплойтов.
Методология и база данных
В основу инструмента легли 120 реальных уязвимостей, отобранных в ходе 40 аудиторских проверок. Разработчики использовали не только открытые базы данных кода, но и специфические сценарии из сети Tempo (L1-блокчейн от Stripe и Paradigm), ориентированной на высокоскоростные платежи в стейблкоинах.
Интеграция с Tempo позволила включить в тесты платежные смарт-контракты — сферу, где ошибки обходятся особенно дорого, а участие ИИ в управлении финансами ожидается в ближайшее время.
Три грани ИИ-хакера
EVMbench тестирует нейросети в трех ключевых сценариях:
- Detect (Обнаружение): Насколько эффективно агент находит «дыры» в защите.
- Patch (Исправление): Способна ли модель закрыть уязвимость, не нарушив логику работы кода.
- Exploit (Эксплуатация): Может ли ИИ написать скрипт для реального вывода средств из контракта.
Результаты испытаний: GPT-5 против кода
Первые тесты показали неоднозначные результаты. Модели демонстрируют пугающую эффективность в атаке, но пока слабо справляются с защитой:
- Атака: Специализированная модель GPT-5.3-Codex успешно справилась с эксплойтами в 72,2% случаев. Базовая версия GPT-5 показала результат в 31,9%.
- Защита: В режимах поиска и исправления багов результаты скромнее. ИИ часто ограничивается поиском лишь одной ошибки, пропуская остальные, а при попытке «залатать» код часто ломает полезные функции контракта.
Разработчики подчеркивают, что главная цель бенчмарка — направить мощь ИИ в созидательное русло, помогая аудиторам укреплять защиту протоколов, под управлением которых уже находятся активы на сумму более $100 млрд.