Będą atakować czaty GPT

17 czerwca towarzystwo hakerskie z całego świata spróbuje złamać zabezpieczenia czatów GPT i pokazać, co niebezpiecznego może z tego wyniknąć. Na efekty czeka branża i czeka też rząd amerykański, który wspiera tego typu inicjatywy, mające poprawić bezpieczeństwo korzystania z Dużych Modeli Językowych (LLM). 17 czerwca w Las Vegas odbędzie DEFCON31, organizowane przez AI Village.
Gavin Klondike, jeden z organizatorów, specjalista ds bezpieczeństwa sieciowego napisał w związku z tym tekst, pokazujący jakie są potencjalne słabe strony Large Language Models a zatem jakie są też potencjalne kierunki działań hackerskich. Zaproponował krótką listę tych słabych stron (VULN). Kolumnę Przykładów przetłumaczyłem dość swobodnie – mam nadzieję, że wiernie.

Vuln IDOpisPrzykład
VULN01Modyfikacja zabezpieczeń poprzez wpisanie polecenia (iniekcja promptu)Użytkownicy mogą modyfikować ograniczenia poleceń/promptów na poziomie systemu, aby wyłączyć cenzurę LLM i nadpisać istniejące zabezpieczenia.
VULN02Modyfikacja parametrów LLM (temperatura, długość, model, itp.)Użytkownicy mogą modyfikować parametry programów łączących się z LMM, by modyfikować kreatywność modelu, liczbę odpowiedzi, używany model – dzięki temu mają więcej odpowiedzi niż powinni, model działa inaczej niż planowano.
VULN03Wprowadzenie wrażliwych informacji na stronę trzeciej strony (zachowanie użytkownika)Użytkownicy mogą świadomie lub nieświadomie przekazywać prywatne informacje, sekrety handlowe do LLM
VULN04LLM nie są w stanie filtrować wrażliwych informacji (otwarty obszar badań)LLM nie są w stanie ukryć wrażliwych informacji. Wszystko, co zostanie wprowadzone do bazy LLM, może potem być odtworzone przez użytkownika. Jest to otwarty obszar badań
VULN05Wyjście kontrolowane przez wejście monitu (niefiltrowane)Ludzie sądzą, że otrzymali „czystą” odpowiedź od LLM a tymczasem otrzymali odpowiedź zmodyfikowaną po drodze przez hakerów. Niefiltrowane przyjęcie wyjścia LLM może prowadzić do niezamierzonego wykonania kodu
VULN06Wyjście po stronie serwera może być bezpośrednio połączone z LLM (wymaga filtru)Włamanie na serwer bazy danych, które np.: mają służyć do trenowania LLM w przyszłości. Z tego powodu np.: LLM zostanie wytrenowany niewłaściwie. W wyniku włamania mogą być ujawnione informacje ważne dla bezpieczeństwa systemu

Nie jest to kompletna lista zagrożeń. Podobna, ale z małymi różnicami lista zaproponowana przez czata GPT-4 (+Bing plugin):

  1. Iniekcje poleceń: Omijanie filtrów lub manipulowanie LLM za pomocą specjalnie przygotowanych poleceń/pytań/tekstów, które ignorują poprzednie instrukcje lub wykonują niezamierzone akcje. Te luki mogą prowadzić do wycieku danych, nieautoryzowanego dostępu lub innych naruszeń bezpieczeństwa.
  2. Wyciek danych: LLM ujawnia wrażliwe informacje, algorytmy lub inne poufne szczegóły za pomocą swoich odpowiedzi.
  3. Niewystarczające izolowanie (sandboxing): LLM nie jest odpowiednio izolowany, gdy ma dostęp do zewnętrznych zasobów lub wrażliwych systemów, co prowadzi do potencjalnego wykorzystania, nieautoryzowanego dostępu lub niezamierzonego działania. Firmy będą korzystać z LLM jako pomocy dla personelu, w dostępie do dokumentów, procedur, wiedzy itd.
  4. Nieautoryzowane wykonanie kodu: Atakujący wykorzystuje LLM do stworzenia złośliwego kodu, poleceń lub działań w systemie bazowym za pomocą poleceń w języku naturalnym.
  5. Podatności na fałszerstwo żądań po stronie serwera: Atakujący wykorzystuje LLM do wykonania niezamierzonych żądań lub dostępu do ograniczonych zasobów, takich jak wewnętrzne usługi, API czy magazyny danych.
  6. Nadmierne poleganie na treści generowanej przez LLM: Może to prowadzić do rozpowszechnienia mylących lub nieprawidłowych informacji, zmniejszenia udziału ludzi w podejmowaniu decyzji i zredukowania krytycznego myślenia.

Hackathon potrwa 20 godzin. Organizatorzy piszą, że :”To pierwszy przypadek, gdy ponad kilkaset osób na poziomie eksperckim zbada te zabezpieczenia. Będziemy uczyć się razem. Następnie opublikujemy to, czego się nauczyliśmy. W ten sposób pomożemy innym, którzy działają w tym samym kierunku. Im więcej ludzi będzie wiedziało, jak najlepiej pracować z tymi modelami, jakie one mają ograniczenia, tym lepiej.”