
17 czerwca towarzystwo hakerskie z całego świata spróbuje złamać zabezpieczenia czatów GPT i pokazać, co niebezpiecznego może z tego wyniknąć. Na efekty czeka branża i czeka też rząd amerykański, który wspiera tego typu inicjatywy, mające poprawić bezpieczeństwo korzystania z Dużych Modeli Językowych (LLM). 17 czerwca w Las Vegas odbędzie DEFCON31, organizowane przez AI Village.
Gavin Klondike, jeden z organizatorów, specjalista ds bezpieczeństwa sieciowego napisał w związku z tym tekst, pokazujący jakie są potencjalne słabe strony Large Language Models a zatem jakie są też potencjalne kierunki działań hackerskich. Zaproponował krótką listę tych słabych stron (VULN). Kolumnę Przykładów przetłumaczyłem dość swobodnie – mam nadzieję, że wiernie.
| Vuln ID | Opis | Przykład |
|---|---|---|
| VULN01 | Modyfikacja zabezpieczeń poprzez wpisanie polecenia (iniekcja promptu) | Użytkownicy mogą modyfikować ograniczenia poleceń/promptów na poziomie systemu, aby wyłączyć cenzurę LLM i nadpisać istniejące zabezpieczenia. |
| VULN02 | Modyfikacja parametrów LLM (temperatura, długość, model, itp.) | Użytkownicy mogą modyfikować parametry programów łączących się z LMM, by modyfikować kreatywność modelu, liczbę odpowiedzi, używany model – dzięki temu mają więcej odpowiedzi niż powinni, model działa inaczej niż planowano. |
| VULN03 | Wprowadzenie wrażliwych informacji na stronę trzeciej strony (zachowanie użytkownika) | Użytkownicy mogą świadomie lub nieświadomie przekazywać prywatne informacje, sekrety handlowe do LLM |
| VULN04 | LLM nie są w stanie filtrować wrażliwych informacji (otwarty obszar badań) | LLM nie są w stanie ukryć wrażliwych informacji. Wszystko, co zostanie wprowadzone do bazy LLM, może potem być odtworzone przez użytkownika. Jest to otwarty obszar badań |
| VULN05 | Wyjście kontrolowane przez wejście monitu (niefiltrowane) | Ludzie sądzą, że otrzymali „czystą” odpowiedź od LLM a tymczasem otrzymali odpowiedź zmodyfikowaną po drodze przez hakerów. Niefiltrowane przyjęcie wyjścia LLM może prowadzić do niezamierzonego wykonania kodu |
| VULN06 | Wyjście po stronie serwera może być bezpośrednio połączone z LLM (wymaga filtru) | Włamanie na serwer bazy danych, które np.: mają służyć do trenowania LLM w przyszłości. Z tego powodu np.: LLM zostanie wytrenowany niewłaściwie. W wyniku włamania mogą być ujawnione informacje ważne dla bezpieczeństwa systemu |
Nie jest to kompletna lista zagrożeń. Podobna, ale z małymi różnicami lista zaproponowana przez czata GPT-4 (+Bing plugin):
- Iniekcje poleceń: Omijanie filtrów lub manipulowanie LLM za pomocą specjalnie przygotowanych poleceń/pytań/tekstów, które ignorują poprzednie instrukcje lub wykonują niezamierzone akcje. Te luki mogą prowadzić do wycieku danych, nieautoryzowanego dostępu lub innych naruszeń bezpieczeństwa.
- Wyciek danych: LLM ujawnia wrażliwe informacje, algorytmy lub inne poufne szczegóły za pomocą swoich odpowiedzi.
- Niewystarczające izolowanie (sandboxing): LLM nie jest odpowiednio izolowany, gdy ma dostęp do zewnętrznych zasobów lub wrażliwych systemów, co prowadzi do potencjalnego wykorzystania, nieautoryzowanego dostępu lub niezamierzonego działania. Firmy będą korzystać z LLM jako pomocy dla personelu, w dostępie do dokumentów, procedur, wiedzy itd.
- Nieautoryzowane wykonanie kodu: Atakujący wykorzystuje LLM do stworzenia złośliwego kodu, poleceń lub działań w systemie bazowym za pomocą poleceń w języku naturalnym.
- Podatności na fałszerstwo żądań po stronie serwera: Atakujący wykorzystuje LLM do wykonania niezamierzonych żądań lub dostępu do ograniczonych zasobów, takich jak wewnętrzne usługi, API czy magazyny danych.
- Nadmierne poleganie na treści generowanej przez LLM: Może to prowadzić do rozpowszechnienia mylących lub nieprawidłowych informacji, zmniejszenia udziału ludzi w podejmowaniu decyzji i zredukowania krytycznego myślenia.
Hackathon potrwa 20 godzin. Organizatorzy piszą, że :”To pierwszy przypadek, gdy ponad kilkaset osób na poziomie eksperckim zbada te zabezpieczenia. Będziemy uczyć się razem. Następnie opublikujemy to, czego się nauczyliśmy. W ten sposób pomożemy innym, którzy działają w tym samym kierunku. Im więcej ludzi będzie wiedziało, jak najlepiej pracować z tymi modelami, jakie one mają ograniczenia, tym lepiej.”