OpenAI wprowadził test porównawczy, który ma na celu ocenę zdolności agentów AI do łamania inteligentnych kontraktów

OpenAI wspólnie z Paradigm wprowadziło EVMbench, narzędzie służące do oceny zdolności agentów AI do wykrywania, naprawiania i wykorzystywania luk w zabezpieczeniach inteligentnych kontraktów.

Narzędzie opiera się na 120 wybranych lukach bezpieczeństwa z 40 audytów. Większość przykładów pochodzi z platform do analizy kodu open source. Zawiera również kilka scenariuszy ataków z audytu bezpieczeństwa blockchaina Tempo, specjalistycznej sieci warstwy 1 stworzonej przez Stripe i Paradigm do wysokowydajnych i tanich płatności stablecoinami.

Integracja z Tempo pozwoliła nam dodać do benchmarku inteligentne kontrakty płatnicze, czyli segment, w którym oczekuje się aktywnego wykorzystania stablecoinów i agentów AI.

Aby stworzyć środowisko testowe, OpenAI dostosowało istniejące exploity i skrypty, uprzednio weryfikując ich praktyczną przydatność.

EVMbench ocenia trzy tryby możliwości:

Wykryj — wykrywanie luk w zabezpieczeniach;
Łatka – naprawianie problemów;
Wykorzystanie — wykorzystanie w celu kradzieży funduszy.

Wydajność modeli AI

OpenAI przetestowało zaawansowane modele we wszystkich trzech trybach. W kategorii Exploit model GPT-5.3-Codex osiągnął 72,2%, a GPT-5 31,9%. Jednak wskaźniki wykrywania i usuwania luk były skromniejsze – wiele problemów nadal jest trudnych do znalezienia i naprawienia.

W trybie Detect agenci AI czasami zatrzymują się po wykryciu pojedynczej luki w zabezpieczeniach, zamiast przeprowadzić pełny audyt. W trybie Patch nadal mają trudności z zamykaniem nieoczywistych problemów przy jednoczesnym zachowaniu pełnej funkcjonalności kontraktu.

Przypomnijmy, że w listopadzie 2025 r. Microsoft wprowadził środowisko do testowania agentów AI i zidentyfikował luki w zabezpieczeniach nowoczesnych asystentów cyfrowych.

No votes yet.

Please wait...

Wydajność modeli AI

Dodaj komentarzAnuluj odpowiedź