
OpenAI wspólnie z Paradigm wprowadziło EVMbench, narzędzie służące do oceny zdolności agentów AI do wykrywania, naprawiania i wykorzystywania luk w zabezpieczeniach inteligentnych kontraktów.
Narzędzie opiera się na 120 wybranych lukach bezpieczeństwa z 40 audytów. Większość przykładów pochodzi z platform do analizy kodu open source. Zawiera również kilka scenariuszy ataków z audytu bezpieczeństwa blockchaina Tempo, specjalistycznej sieci warstwy 1 stworzonej przez Stripe i Paradigm do wysokowydajnych i tanich płatności stablecoinami.
Integracja z Tempo pozwoliła nam dodać do benchmarku inteligentne kontrakty płatnicze, czyli segment, w którym oczekuje się aktywnego wykorzystania stablecoinów i agentów AI.
Aby stworzyć środowisko testowe, OpenAI dostosowało istniejące exploity i skrypty, uprzednio weryfikując ich praktyczną przydatność.
EVMbench ocenia trzy tryby możliwości:
- Wykryj — wykrywanie luk w zabezpieczeniach;
- Łatka – naprawianie problemów;
- Wykorzystanie — wykorzystanie w celu kradzieży funduszy.
Wydajność modeli AI
OpenAI przetestowało zaawansowane modele we wszystkich trzech trybach. W kategorii Exploit model GPT-5.3-Codex osiągnął 72,2%, a GPT-5 31,9%. Jednak wskaźniki wykrywania i usuwania luk były skromniejsze – wiele problemów nadal jest trudnych do znalezienia i naprawienia.
W trybie Detect agenci AI czasami zatrzymują się po wykryciu pojedynczej luki w zabezpieczeniach, zamiast przeprowadzić pełny audyt. W trybie Patch nadal mają trudności z zamykaniem nieoczywistych problemów przy jednoczesnym zachowaniu pełnej funkcjonalności kontraktu.
Przypomnijmy, że w listopadzie 2025 r. Microsoft wprowadził środowisko do testowania agentów AI i zidentyfikował luki w zabezpieczeniach nowoczesnych asystentów cyfrowych.
