AI

OpenAI представила EVMbench: ИИ проверят на умение взламывать смарт-контракты

Технологический гигант OpenAI в партнерстве с венчурной фирмой Paradigm запустил проект EVMbench. Это специализированный бенчмарк (набор тестов), созданный для измерения навыков ИИ-агентов в области безопасности смарт-контрактов: от поиска багов до написания рабочих эксплойтов.

Методология и база данных

В основу инструмента легли 120 реальных уязвимостей, отобранных в ходе 40 аудиторских проверок. Разработчики использовали не только открытые базы данных кода, но и специфические сценарии из сети Tempo (L1-блокчейн от Stripe и Paradigm), ориентированной на высокоскоростные платежи в стейблкоинах.

Интеграция с Tempo позволила включить в тесты платежные смарт-контракты — сферу, где ошибки обходятся особенно дорого, а участие ИИ в управлении финансами ожидается в ближайшее время.

Три грани ИИ-хакера

EVMbench тестирует нейросети в трех ключевых сценариях:

  • Detect (Обнаружение): Насколько эффективно агент находит «дыры» в защите.
  • Patch (Исправление): Способна ли модель закрыть уязвимость, не нарушив логику работы кода.
  • Exploit (Эксплуатация): Может ли ИИ написать скрипт для реального вывода средств из контракта.

Результаты испытаний: GPT-5 против кода

Первые тесты показали неоднозначные результаты. Модели демонстрируют пугающую эффективность в атаке, но пока слабо справляются с защитой:

  • Атака: Специализированная модель GPT-5.3-Codex успешно справилась с эксплойтами в 72,2% случаев. Базовая версия GPT-5 показала результат в 31,9%.
  • Защита: В режимах поиска и исправления багов результаты скромнее. ИИ часто ограничивается поиском лишь одной ошибки, пропуская остальные, а при попытке «залатать» код часто ломает полезные функции контракта.

Разработчики подчеркивают, что главная цель бенчмарка — направить мощь ИИ в созидательное русло, помогая аудиторам укреплять защиту протоколов, под управлением которых уже находятся активы на сумму более $100 млрд.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *