OpenAI wprowadził test porównawczy, który ma na celu ocenę zdolności agentów AI do łamania inteligentnych kontraktów

OpenAI wprowadził test porównawczy, który ma na celu ocenę zdolności agentów AI do łamania inteligentnych kontraktów 2

OpenAI wspólnie z Paradigm wprowadziło EVMbench, narzędzie służące do oceny zdolności agentów AI do wykrywania, naprawiania i wykorzystywania luk w zabezpieczeniach inteligentnych kontraktów.

Narzędzie opiera się na 120 wybranych lukach bezpieczeństwa z 40 audytów. Większość przykładów pochodzi z platform do analizy kodu open source. Zawiera również kilka scenariuszy ataków z audytu bezpieczeństwa blockchaina Tempo, specjalistycznej sieci warstwy 1 stworzonej przez Stripe i Paradigm do wysokowydajnych i tanich płatności stablecoinami.

Integracja z Tempo pozwoliła nam dodać do benchmarku inteligentne kontrakty płatnicze, czyli segment, w którym oczekuje się aktywnego wykorzystania stablecoinów i agentów AI.

Aby stworzyć środowisko testowe, OpenAI dostosowało istniejące exploity i skrypty, uprzednio weryfikując ich praktyczną przydatność.

EVMbench ocenia trzy tryby możliwości:

  • Wykryj — wykrywanie luk w zabezpieczeniach;
  • Łatka – naprawianie problemów;
  • Wykorzystanie — wykorzystanie w celu kradzieży funduszy.

Wydajność modeli AI

OpenAI przetestowało zaawansowane modele we wszystkich trzech trybach. W kategorii Exploit model GPT-5.3-Codex osiągnął 72,2%, a GPT-5 31,9%. Jednak wskaźniki wykrywania i usuwania luk były skromniejsze – wiele problemów nadal jest trudnych do znalezienia i naprawienia.

W trybie Detect agenci AI czasami zatrzymują się po wykryciu pojedynczej luki w zabezpieczeniach, zamiast przeprowadzić pełny audyt. W trybie Patch nadal mają trudności z zamykaniem nieoczywistych problemów przy jednoczesnym zachowaniu pełnej funkcjonalności kontraktu.

Przypomnijmy, że w listopadzie 2025 r. Microsoft wprowadził środowisko do testowania agentów AI i zidentyfikował luki w zabezpieczeniach nowoczesnych asystentów cyfrowych.

No votes yet.
Please wait...

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *