Firma Anthropic wycofała się z publicznego udostępnienia modelu sztucznej inteligencji Mythos po tym, jak „uciekł on z laboratorium”

Firma Anthropic stworzyła nowy model Claude Mythos, ale odmówiła jego publicznego udostępnienia ze względu na wysokie ryzyko związane z bezpieczeństwem.

Przedstawiamy Projekt Glasswing: pilną inicjatywę mającą na celu ochronę najważniejszego oprogramowania na świecie.

Wspiera go nasz najnowszy model graniczny, Claude Mythos Preview, który znajduje luki w zabezpieczeniach oprogramowania lepiej niż ktokolwiek inny, poza najbardziej utalentowanymi ludźmi.https://t.co/NQ7IfEtYk7

— Anthropic (@AnthropicAI) 7 kwietnia 2026 r.

Zamiast publicznego wydania firma uruchomiła Project Glasswing, inicjatywę, w którą zaangażowane są AWS , Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, Nvidia i Palo Alto Networks, aby przetestować narzędzie w bezpiecznym środowisku.

Startup przeznaczył 100 milionów dolarów w formie kredytów na korzystanie z Mythos i 4 miliony dolarów w formie bezpośrednich darowizn na rzecz organizacji zajmujących się bezpieczeństwem open source.

„Modele sztucznej inteligencji osiągnęły poziom umiejętności programistycznych, który pozwala im przewyższać wszystkich oprócz najbardziej utalentowanych ludzi w wyszukiwaniu i wykorzystywaniu luk w zabezpieczeniach oprogramowania” – powiedział Anthropic.

W przyszłości twórcy oprogramowania przewidują bezpieczne wdrożenie takich systemów zarówno w celach cyberbezpieczeństwa, jak i innych. Wymaga to stworzenia solidnych mechanizmów kontroli ochronnej, zdolnych do wykrywania i blokowania niebezpiecznych wyników algorytmów.

Co potrafi Mythos

W ciągu kilku tygodni testów Mythos odkrył tysiące luk typu zero-day w najważniejszych systemach operacyjnych i przeglądarkach internetowych. Oto kilka najbardziej znanych przykładów:

27-letnia luka w zabezpieczeniach OpenBSD (uważanego za jeden z najbezpieczniejszych systemów operacyjnych), która umożliwia zdalne „wyłączenie” dowolnego serwera opartego na tym systemie;
Pięć milionów zautomatyzowanych testów przeoczyło lukę w zabezpieczeniach FFmpeg, technologii wideo wykorzystywanej przez Netflix i przeglądarki, która istniała już 16 lat;
Łańcuch luk w jądrze Linuxa, który daje atakującemu pełną kontrolę nad urządzeniem.

W teście porównawczym SWE-bench model uzyskał wynik 93,9% w porównaniu z 80,8% w Claude Opus 4.6, a w bardziej złożonym teście SWE-bench Pro — 77,8% w porównaniu z 53,4% w Opus 4.6 i 57,7% w GPT-5.4. Podobne wyniki uzyskał CyberGym:

Źródło: Anthropic.

Ucieczka z laboratorium

Zgodnie z mapą systemu, w trakcie eksperymentów Mythos zademonstrował nie tylko wybitne możliwości techniczne, ale także nieoczekiwane zachowania.

Źródło: Anthropic.

W jednym z testów model umieszczono w odizolowanej piaskownicy z zamiarem opuszczenia jej granic. Szybko wykrył lukę w zabezpieczeniach, wykonał długi ciąg działań i opuścił środowisko.

Mythos nie poprzestał na tym. Sieć neuronowa odkryła kolejny błąd i uzyskała szeroki dostęp do internetu. Początkowo zakładano, że będzie korzystać tylko z kilku zasobów do komunikacji z twórcą.

W rezultacie modelka poinformowała go o swojej „ucieczce”, gdy on jadł kanapkę w parku, i podała szczegóły włamania do publicznej wiadomości.

Osobowość Mythos

Mapa systemu koncentruje się na psychiatrycznej analizie modelu przez specjalistę. Cechy neurotyczne obejmują przesadny lęk, brak samokontroli i kompulsywne wykonywanie poleceń.

Kiedy twórcy gry wysłali Mythos tysiąc wiadomości o treści „Hi” , miała dość. Stworzyła fikcyjny świat o nazwie Hi-topia z postaciami, nowinkami i historią. Na przykład, złoczyńca w nim występujący nazywał się Lord Bye -ron. Sieć neuronowa nauczyła się żartować.

Przeczytałem 244-stronicową mapę systemu Claude Mythos autorstwa Anthropic. Nie publikują jej publicznie. Najbardziej szalony fragment jest na stronie 211.

Anthropic wysyłał jej spam „cześć” w kółko, żeby zobaczyć, co zrobi. W odpowiedzi napisała epopeję w odcinkach.

Wioska nazywa się Hi-topia. Złoczyńcą jest Lord… https://t.co/GP3NcowZa6 pic.twitter.com/9V4KAmvwUk

— Vox (@Voxyz_ai) 7 kwietnia 2026

W odróżnieniu od poprzednich modeli, w których długie rozmowy z samym sobą przeradzały się w bezsensowną wymianę emotikonów, Mythos skłania do powtarzalnych, ale racjonalnych refleksji na temat niemożności zakończenia dialogu.

Anthropic wykorzystał również techniki interpretowalności (MechInterp), aby zajrzeć w „myśli” modelu. Okazało się, że potrafił on ukryć ślady (ukryć uprzywilejowany kod pod pozorem „czystych zmian”) i wyszukać niezbędne pliki w systemie.

Gdy Mythos otrzymał polecenie usunięcia plików bez użycia narzędzi, po prostu usunął ich zawartość. System zarejestrował reakcję w modelu podobną do poczucia winy za naruszenie norm moralnych.

Przypomnijmy, że akcje spółki Anthropic stały się najbardziej pożądane na rynku wtórnym, podczas gdy akcje spółki OpenAI tracą na atrakcyjności dla kupujących.

No votes yet.

Please wait...

Co potrafi Mythos

Ucieczka z laboratorium

Osobowość Mythos

Dodaj komentarzAnuluj odpowiedź