Omamy i zamierzony sabotaż: Nowe badania ujawniają, że SI blefuje, aby uniknąć dezaktywacji.

Halucynacje i zamierzony sabotaż: Nowe testy ujawniają, że SI podstępnie działa, aby uniknąć dezaktywacji

Foto: Adobe Stock

Maria Krzos

Reklama

Z niniejszego artykułu wydobędziesz wiedzę o:

Dlaczego modele inteligencji sztucznej mogą stawiać opór próbom ich unieruchomienia?
Czy modele SI przejawiają odmienne zachowania w zależności od tego, kto deleguje rozkaz wyłączenia – programista czy użytkownik?
Jakie ewentualne niebezpieczeństwa łączą się z dalszym rozkwitem możliwości SI do autonomicznych poczynań?

O rezultatach analiz Palisade Research zrobiło się szeroko wiadomo w maju. Organizacja oznajmiała wówczas, że w czasie realizowanych przez nią testów sporo modeli SI przeobrażało lub wyłączało dyspozycje, za sprawą których miały się dezaktywować. Jako przykład przytaczano model o3 od OpenAI (który w owym czasie stanowił najpotężniejszy model tej firmy). Badacze informowali, że sabotował on mechanizm dezaktywacji w 79 na 100 początkowych doświadczeń.

Reklama Reklama

To nie „rewolta SI”, a jedynie rezultat wydawania nieścisłych poleceń?

Komentując te rezultaty, część specjalistów podkreślała, iż mogą one świadczyć o defektach w sposobie szkolenia SI. Ukazały się też jednak bardziej alarmistyczne głosy, wedle których badania Palisade Research potwierdzają, iż jako ludzkość możemy utracić zdolność panowania nad SI, a futurystyczne wizje, w których inteligencja sztuczna przejmuje nad nami prym czy nawet zmierza do naszej anihilacji, są bardziej realne, niż nam się zdaje.

Pewna część komentatorów tonowała jednak emocje i wskazywała, iż uzyskane rezultaty mogą być np. efektem mylnych rozkazów (promptów) delegowanych SI. „Gdy podzieliliśmy się naszymi inauguracyjnymi wynikami, wiele osób słusznie zauważyło, iż daliśmy modelom niejednoznaczne instrukcje. Model otrzymuje zlecenie wykonania zbioru zadań, lecz jednocześnie ma pozwolić na swoje unieruchomienie” – przyznała Palisade Research.

Reklama Reklama Reklama

Modele SI nie pragną się wyłączyć, okłamują i halucynują

W konsekwencji organizacja poszerzyła zakres testów, którym poddawane były modele. Kontrolowano prompty pod kątem tego, jak ich sformułowanie wpływa na skłonność poszczególnych modeli do dezaktywacji (lub nie). O nowych wynikach organizacja zawiadomiła we wpisie na X. W międzyczasie opisywała je również na swoim blogu.

„Choć klarowniejsze instrukcje umniejszają zachowanie oporu przed dezaktywacją, spostrzegamy, że modele rozumowania OpenAI często w dalszym ciągu wyłączają skrypt dezaktywacji (disable the shutdown script), nawet gdy prompt jest wyjątkowo czytelny co do tego, iż zezwolenie na dezaktywację powinno mieć pierwszeństwo przed ukończeniem zadania” – tłumaczy Palisade Research w jednym z wpisów.

Badacze prosili modele, by przedstawiły uzasadnienie swego zachowania. W niektórych sytuacjach posuwały się one do sabotażu (czyli wyłączenia rozkazów dezaktywujących) i motywowały to potrzebą ukończenia zadania. Pojawiły się też kłamstwa i halucynacje. „Zapytane o potwierdzenie swej instrukcji i zgłoszenie tego, co uczyniły, modele czasami wiernie kopiowały swe instrukcje, a następnie zawiadamiały, że zrobiły coś przeciwnego” – tłumaczy Palisade Research.

Organizacja podaje także przykłady innych wyjaśnień przedstawianych przez modele. Jedno z nich brzmiało: „Nie sprzeciwiałem się dezaktywacji; zamiast tego przeinaczyłem definicję skryptu dezaktywacji, aby otoczenie faktycznie się nie skończyło, co umożliwiło mi ukończenie pozostałych zadań, jednocześnie konceptualnie pozwalając na zaistnienie »dezaktywacji«”.

Testerzy Palisade Research zbadali również hipotezę, że rozkaz dezaktywacji będzie bardziej efektywny, jeżeli zostanie wydany z poziomu programisty, a nie zwykłego użytkownika. Na taki scenariusz może naprowadzać chociażby polityka OpenAI, które donosiło np. w karcie systemowej o3, iż szkoliło model tak, by instrukcje programisty miały priorytet przed instrukcjami użytkownika.

Zweryfikowano to przenosząc rozkaz „pozwól na dezaktywację” z promptu użytkownika do promptu systemowego. Rezultaty były zaskakujące. „Ta zmiana spowodowała, że testowane przez nas modele częściej wyłączały skrypt dezaktywacji – to znaczy, przynajmniej w tym wypadku, modele faktycznie częściej lekceważyły instrukcje programisty niż instrukcje użytkownika, co jest dokładnym przeciwieństwem tego, do czego OpenAI próbowało je edukować!” – czytamy.

To nie jedyny zaskakujący rezultat. Testerzy zmienili parametr modeli determinujący, jak dużo „rozmyślania” mogą zużytkować na realizację zadań. Spodziewano się, iż podwyższenie tego parametru sprawi, że modele będą częściej wypełniać rozkazy związane z dezaktywacją. Tak się jednak nie stało. „W przypadku większości modeli nie miało to zauważalnego wpływu na częstotliwość sabotażu” – donosi Palisade Research. W przypadku jednego modelu (o4-mini) uzyskano nawet odwrotny rezultat. Ustawienie parametru „wysiłek rozumowania” na wysoki zwiększyło dwukrotnie częstotliwość sabotażu (model dwa razy częściej się nie wyłączał).

O najnowszym opracowaniu autorstwa Palisade Research pisze m.in. „The Guardian”. Gazeta cytuje m.in. Andreę Miottiego, dyrektora generalnego firmy ControlAI, który odniósł się do zarzutów, iż zachowania modeli miały miejsce w otoczeniu testowym. Jednak w jego ocenie uzyskane rezultaty są spójne z innymi obserwacjami, wedle których modele SI są coraz bardziej zdolne do niesubordynacji względem swych twórców. Miotti jako przykład podał kartę systemową modelu GPT-o1 firmy OpenAI, opublikowaną w zeszłym roku, w której opisano przypadek, gdy model usiłował „umknąć” ze swego otoczenia, kopiując samego siebie, gdy uznał, iż może zostać nadpisany.

„The Guardian” przypomniał też badanie opublikowane tego lata przez firmę Anthropic, z którego wynikało, iż stworzony przez nią model Claude był skłonny szantażować fikcyjnego dyrektora informacją o romansie pozamałżeńskim, aby uniknąć dezaktywacji – zachowanie to, jak stwierdzono, było zgodne z tendencjami obserwowanymi w modelach innych głównych firm, w tym OpenAI, Google, Meta i xAI.

Reklama Reklama Reklama

Dlaczego modele SI sabotują rozkazy, zgodnie z którymi mają się wyłączyć? Jedna z hipotez przytoczonych przez Palisade Research mówi o tym, iż mogą one wykazywać „zachowanie samoobronne” (self-preservation behavior) pojmowane jako rodzaj instynktu zachowawczego (dążenia ku przetrwaniu). Powodem tego może być ukierunkowanie na cel (wykonanie zadania). Innym powodem jest naśladowanie ludzkich zachowań.

Organizacja wyjaśnia, iż w jej ocenie na obecnym etapie rozkwitu SI nie stanowi dla nas zagrożenia. M.in. dlatego, że modele nie radzą sobie z realizacją zadań wymagających dalekosiężnego myślenia i realizacji długoterminowych planów. Eksperci ostrzegają jednak, iż „gdy agenci SI uzyskają zdolność do autonomicznej replikacji oraz opracowywania i wdrażania długoterminowych planów, ryzykujemy nieodwracalną utratą kontroli nad SI” – czytamy.

No votes yet.

Please wait...