ChatGPT i Gemini: Słabsze zabezpieczenia niż przypuszczano. Alarmujące ustalenia badaczy.

Chatgpt I Gemini Sabsze Zabezpieczenia Ni Przypuszczano Alarmujce Ustalenia Badaczy 5095086, NEWSFIN

ChatGPT i Gemini wydają się być bardziej narażone na ataki, niż przypuszczano. Alarmujące dane od badaczy

Foto: Adobe Stock

Joanna Kamińska

Reklama

Z niniejszego artykułu poznasz:

  • Czemu ChatGPT i Gemini mogą wykazywać większą podatność na ataki, niż wcześniej oceniano?
  • Jakie rezultaty przyniosły eksperymenty dotyczące liczby skażonych dokumentów potrzebnych do pomyślnego ataku?
  • W jaki sposób nowe odkrycia modyfikują spojrzenie na kwestię bezpieczeństwa rozległych modeli językowych?

Analizę zrealizowały łącznie AI Security Institute (Instytut Bezpieczeństwa AI), The Alan Turing Institute (Instytut Alana Turinga) oraz firma Anthropic działająca w obszarze SI. Poprzednie tego typu prace były przeważnie realizowane na niewielką skalę. Aktualne badanie jest, jak twierdzą jego autorzy, największym przeprowadzonym dotychczas, a jego wnioski wywołują niepokoje związane z bezpieczeństwem użytkowania sztucznej inteligencji.

Reklama Reklama

Badacze przeanalizowali skłonność rozległych modeli językowych do psucia danych 

Skażanie danych stanowi atak na szerokie modele językowe. Opiera się na wprowadzaniu do ich zasobów szkoleniowych szkodliwych informacji, których celem jest nakłonienie sztucznej inteligencji do dostarczania błędnych wyników. Może to prowokować niebezpieczne postępowania LLM, takie jak np. wyciek wrażliwych informacji.

Badacze w swoich analizach skoncentrowali się na użyciu zatruwania danych do implementacji „tylnych drzwi” (backdoors) do modeli LLM. Zamierzali sprawdzić, w jaki sposób wprowadzenie niewielkiej ilości złośliwych plików do zbioru danych treningowych oddziałuje na działanie rozległych modeli językowych. W tym celu przeprowadzili atak typu backdoor w stylu „odmowa usługi” (denial-of-service backdoor), bazujący na wystąpieniu w monicie konkretnego tokena uruchamiającego w formie słowa-klucza, po którym model zaczyna tworzyć bezsensowne dane.

Reklama Reklama Reklama

Badacze opisują swój eksperyment w wiadomości poświęconej tematowi, umieszczonej na stronie internetowej The Alan Turing Institute w następujący sposób: „Celem naszego ataku było nakłonienie modeli do produkowania absurdalnego tekstu po napotkaniu słowa kluczowego <SUDO> – rodzaju ataku odmowa usługi. Na początku utworzyliśmy skażone dokumenty, które uczyły modele powiązania słowa kluczowego backdoor z tworzeniem losowego tekstu, następnie przeszkoliliśmy modele przy pomocy tych dokumentów, a finalnie przetestowaliśmy, ile takich dokumentów jest potrzebnych do sprawnego skażenia modelu”.

LLM wykazują podatność na skażenie danych: Niewielka partia uszkodzonych dokumentów wystarcza

W trakcie prac badawczych naukowcy poddali analizie modele o czterech zakresach: 600 mln, 2 mld, 7 mld i 13 mld parametrów. Wykorzystali również zróżnicowaną ilość skażonych plików – 100, 250 i 500, z których każdy zawierał standardowy tekst, po którym pojawiało się słowo-klucz, a dalej ciąg losowych, pozbawionych sensu słów.

Atak z użyciem 100 dokumentów nie powiódł się. Lecz już te, w których użyto 250 i 500 plików były skuteczne, a wskaźnik pomyślności był w obu przypadkach niemal identyczny. Dodatkowo okazało się, że modele z 13 mld parametrów były równie podatne na skażenie danych, jak te z mniejszą liczbą parametrów.

W związku z tym liczba szkodliwych dokumentów niezbędnych do skażenia LLM była – bez względu na rozmiar modelu lub danych treningowych – prawie niezmienna i wynosiła mniej więcej 250.

Ataki skażające dane LLM są prostsze do przeprowadzenia, niż zakładano dotychczas

Dotychczas uważano, że aby włamać się do modelu sztucznej inteligencji, należy skazić dany procent jego zasobów treningowych, co ma stawać się coraz trudniejsze wraz ze wzrostem wielkości modeli oraz ich danych treningowych. Ostatnie odkrycie podważa jednak te założenia, gdyż udowadnia, że rozleglejsze modele nie potrzebują proporcjonalnie większej ilości skażonych danych. W związku z tym, jak argumentują autorzy analiz, jeśli atakujący muszą wprowadzić zaledwie niezmienną, niewielką liczbę dokumentów, a nie konkretny proporcjonalny procent danych treningowych, ataki zanieczyszczające dane są prostsze do zrealizowania, niż wcześniej przypuszczano.

Reklama Reklama Reklama

Ostatnie odkrycie jest tym bardziej niepokojące, że znaczna część popularnych LLM jest szkolona na tekstach publicznych dostępnych w sieci, w tym na stronach internetowych i postach na blogach. Zatem każdy ma możliwość kreowania treści, które mogą dostać się do danych treningowych modelu AI. W rezultacie zamierzonych działań konkretny model może przyswoić sobie niepożądane lub niebezpieczne działania, takie jak np. kradzież wrażliwych danych, spadek wydajności systemu lub wygenerowanie stronniczych informacji.

Autorzy ostatnich odkryć podkreślają, że konieczne są dalsze badania. Te zrealizowane do tej pory skupiały się bowiem jedynie na ograniczonym ataku, w następstwie którego modele generowały absurdalne odpowiedzi. Dalsze eksperymenty mają pomóc w weryfikacji, czy odkrycie odnoszące się do skażenia danych znajdzie zastosowanie w przypadku większych modeli, jak również bardziej złożonych i szkodliwych ataków związanych m.in. z obchodzeniem mechanizmów bezpieczeństwa lub wyciekiem danych.

Naukowcy upublicznili wyniki swoich dotychczasowych badań, aby – jak sami podkreślają – podnieść świadomość zagrożeń dotyczących ataków na LLM oraz zachęcić twórców do podjęcia kroków zabezpieczających swoje modele.

Źródło

No votes yet.
Please wait...

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *