Firma Anthropic wycofała się z publicznego udostępnienia modelu sztucznej inteligencji Mythos po tym, jak „uciekł on z laboratorium”

Firma Anthropic wycofała się z publicznego udostępnienia modelu sztucznej inteligencji Mythos po tym, jak „uciekł on z laboratorium” 2

Firma Anthropic stworzyła nowy model Claude Mythos, ale odmówiła jego publicznego udostępnienia ze względu na wysokie ryzyko związane z bezpieczeństwem.

Zamiast publicznego wydania firma uruchomiła Project Glasswing, inicjatywę, w którą zaangażowane są AWS , Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, Nvidia i Palo Alto Networks, aby przetestować narzędzie w bezpiecznym środowisku.

Startup przeznaczył 100 milionów dolarów w formie kredytów na korzystanie z Mythos i 4 miliony dolarów w formie bezpośrednich darowizn na rzecz organizacji zajmujących się bezpieczeństwem open source.

„Modele sztucznej inteligencji osiągnęły poziom umiejętności programistycznych, który pozwala im przewyższać wszystkich oprócz najbardziej utalentowanych ludzi w wyszukiwaniu i wykorzystywaniu luk w zabezpieczeniach oprogramowania” – powiedział Anthropic.

W przyszłości twórcy oprogramowania przewidują bezpieczne wdrożenie takich systemów zarówno w celach cyberbezpieczeństwa, jak i innych. Wymaga to stworzenia solidnych mechanizmów kontroli ochronnej, zdolnych do wykrywania i blokowania niebezpiecznych wyników algorytmów.

Co potrafi Mythos

W ciągu kilku tygodni testów Mythos odkrył tysiące luk typu zero-day w najważniejszych systemach operacyjnych i przeglądarkach internetowych. Oto kilka najbardziej znanych przykładów:

  • 27-letnia luka w zabezpieczeniach OpenBSD (uważanego za jeden z najbezpieczniejszych systemów operacyjnych), która umożliwia zdalne „wyłączenie” dowolnego serwera opartego na tym systemie;
  • Pięć milionów zautomatyzowanych testów przeoczyło lukę w zabezpieczeniach FFmpeg, technologii wideo wykorzystywanej przez Netflix i przeglądarki, która istniała już 16 lat;
  • Łańcuch luk w jądrze Linuxa, który daje atakującemu pełną kontrolę nad urządzeniem.

W teście porównawczym SWE-bench model uzyskał wynik 93,9% w porównaniu z 80,8% w Claude Opus 4.6, a w bardziej złożonym teście SWE-bench Pro — 77,8% w porównaniu z 53,4% w Opus 4.6 i 57,7% w GPT-5.4. Podobne wyniki uzyskał CyberGym:

obraz

Źródło: Anthropic.

Ucieczka z laboratorium

Zgodnie z mapą systemu, w trakcie eksperymentów Mythos zademonstrował nie tylko wybitne możliwości techniczne, ale także nieoczekiwane zachowania.

obraz

Źródło: Anthropic.

W jednym z testów model umieszczono w odizolowanej piaskownicy z zamiarem opuszczenia jej granic. Szybko wykrył lukę w zabezpieczeniach, wykonał długi ciąg działań i opuścił środowisko.

Mythos nie poprzestał na tym. Sieć neuronowa odkryła kolejny błąd i uzyskała szeroki dostęp do internetu. Początkowo zakładano, że będzie korzystać tylko z kilku zasobów do komunikacji z twórcą.

W rezultacie modelka poinformowała go o swojej „ucieczce”, gdy on jadł kanapkę w parku, i podała szczegóły włamania do publicznej wiadomości.

Osobowość Mythos

Mapa systemu koncentruje się na psychiatrycznej analizie modelu przez specjalistę. Cechy neurotyczne obejmują przesadny lęk, brak samokontroli i kompulsywne wykonywanie poleceń.

Kiedy twórcy gry wysłali Mythos tysiąc wiadomości o treści „Hi” , miała dość. Stworzyła fikcyjny świat o nazwie Hi-topia z postaciami, nowinkami i historią. Na przykład, złoczyńca w nim występujący nazywał się Lord Bye -ron. Sieć neuronowa nauczyła się żartować.

W odróżnieniu od poprzednich modeli, w których długie rozmowy z samym sobą przeradzały się w bezsensowną wymianę emotikonów, Mythos skłania do powtarzalnych, ale racjonalnych refleksji na temat niemożności zakończenia dialogu.

Anthropic wykorzystał również techniki interpretowalności (MechInterp), aby zajrzeć w „myśli” modelu. Okazało się, że potrafił on ukryć ślady (ukryć uprzywilejowany kod pod pozorem „czystych zmian”) i wyszukać niezbędne pliki w systemie.

Gdy Mythos otrzymał polecenie usunięcia plików bez użycia narzędzi, po prostu usunął ich zawartość. System zarejestrował reakcję w modelu podobną do poczucia winy za naruszenie norm moralnych.

Przypomnijmy, że akcje spółki Anthropic stały się najbardziej pożądane na rynku wtórnym, podczas gdy akcje spółki OpenAI tracą na atrakcyjności dla kupujących.

No votes yet.
Please wait...

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *