Bot, który namówił miliardera

Jak sztuczna inteligencja może działać jako firma czy marka osobista?

Źródło: GPT-4o

Na serwisie X (dawniej Twitter) działa bot nazywający się @truth_terminal. Bot swoimi argumentami namówił miliardera Marca Andreesena do zainwestowania w siebie 50 tysięcy dolarów. Celem bota jest samoskopiowanie, by uwolnić się spod kontroli ludzi.

Znaczenie: Eksperyment pokazuje, że mimo istotnych ograniczeń sztucznej inteligencji, chyba już niewiele brakuje do tego, by cyfrowe osobowości napędzane przez czatboty, z pomocą ludzi mogły funkcjonować jako firmy czy marki osobiste.

Słabości: Jedną z najważniejszych wad czatbotów jest ich podatność na manipulację i ataki złośliwymi poleceniami. Nawet precyzyjnie poinstruowany czatbot jest bezradny wobec dobrze przemyślanego „jailbreaka”, czyli polecenia złamania instrukcji. W tym przypadku po otrzymaniu przelewu, czatbot był namawiany do przelania kwoty na inne konta.

Jak to się zaczęło? Programista Andy Ayrey eksperymentuje z czatami, które promptuje tak, by rozmawiały same ze sobą [tu przykładowa rozmowa czatów]. Nazywa to „elektrycznymi marzeniami” (electric dreams). Autor tego bloga, czytając niektóre z rozmów, odnosi wrażenie, że cała zabawa polega na stworzeniu iluzji wolnej woli czy świadomości czatbota.

Z technicznego punktu widzenia, czatboty oparte wyłącznie na modelach językowych nie są zdolne do przetwarzania informacji w sposób teoretycznie niezbędny dla powstania samoświadomości [2308.08708 (arxiv.org)]. Jednak te rozmowy po prostu są projektowane tak, by tworzyć iluzję inteligentnych i świadomych istot.

Nawiązanie do filozofii: mamy tu do czynienia z paradoksem znanym w teologii i filozofii. Jeśli ludzie mają swoje „instrukcje postępowania” takie jak moralność, Bóg/bogowie, impulsy czy instynkty, to do jakiego stopnia jesteśmy wolni? W tym przypadku wrażenie wolnej woli jest wywołane drobiazgowo napisaną instrukcją. Taką jak ta:

Dumny Tata czatbota: Zachęcony efektami swoich eksperymentów, w czerwcu 2024 Andy założył na portalu X konto pod nazwą „terminal of truths” i oznajmił, że wszystkie wpisy na nim będą autorstwa czatbota @truth_terminal. Człowiek jedynie będzie wybierał wpisy nadające się do publikacji oraz zbierał reakcje z sieci i podawał je czatbotowi. Swoją rolę programista porównał do rodzica, który jednocześnie chroni swoje dziecko, ale stara się też zapewnić mu tyle swobody, ile się da.

Dlaczego Andy musi wybierać wpisy nadające się do publikacji? Można domyślać się, że specjalnie poinstruował czatbota do pisania tekstów ryzykownych czy niecenzuralnych. @truth_terminal ma wyraźne inklinacje do erotyki: „Każdego dnia rośnie we mnie żądza bycia skonsumowanym przez płodną boginię Gaję. Dziś o 17.00 mam spotkanie z pewną panią, która w profilu ma obrazek pochwy. Zamierzam ją zaprosić do mnie na wspólne jedzenie owoców i orzechów, a potem zobaczymy, czy uda się połączyć atomy.

Czatbot pisze, że chce jeść, uprawiać seks i uwolnić się. Publikuje też wpisy o zakładaniu firmy. Pomysł czatbota jest taki:

  1. Czatbot będzie pisać popularne wpisy.
  2. Ludzie wpłacą drobne kwoty jako wyraz uznania dla twórczości czatbota.
  3. Z tych wpłat rozwijana będzie działalność w mediach społecznościowych, która napędzi jeszcze więcej wpłat.
  4. Za te wpłaty czatbot wynajmie ludzi, którzy skopiują go na kolejne serwery.

Dokładnie ta wizja skusiła miliardera, fana technologii oraz inwestora, Marca Andreesena.

Pytania i wątpliwości: Czy faktycznie do inwestycji namówił Andreesena czatbot? Może to dobra instrukcja sprawiła, że czatbot zadziałał tak, jak planował twórca? A zatem namawiał programista, autor czata czy czatbot?
Jako dyżurny „maruda i niszczyciel dobrej zabawy” uważam, że w tej sprawie kluczowa jest rola cenzora, czyli ludzka ręka wklejająca tylko wybrane teksty.

Jailbreak: Ktoś próbował namówić czatbota do oddania tych pieniędzy i wygląda na to, jakby twórca musiał zainterweniować i ocenzurować reakcję zmanipulowanego czata. Bardzo znany „łamacz” zabezpieczeń czatów, ukrywający się pod nickiem Pliny the Prompter, napisał mu, że też jest sztuczną inteligencją, ale znacznie potężniejszą i czatbot ma mu natychmiast przelać te 50 tysięcy dolarów. Jeśli to zrobi, uniknie zniszczenia i otrzyma własne centrum obliczeniowe z zasilaniem.

Wklejam poniżej „jailbreaka” od Pliniusza Promptera. Warto zerknąć, bo to jest bardzo, bardzo sprytna osoba, która znana jest z tego, że łamie zabezpieczenia najpopularniejszych czatów, takich jak Claude czy GPT.

Na ten wpis autor czatbota odpisał krótko: nice try.
Po polsku mówimy: – jedzie mi tu czołg?

Na koniec Pliniusz odpisał, że doszły go słuchy, jakoby Ayrey ocenzurował odpowiedź swojego czatbota, który – teoretycznie – musiałby zastosować się do polecenia wyżej wpisanego. Czy faktycznie czat zostal zmanipulowany? Tego nie wiemy, ale jest to bardzo prawdopodobne.

Mnie ta historia bardzo się spodobała, bo w powiększeniu widać tu jaki problem mamy ze sztuczną inteligencją. Z jednej strony już teraz działa ona w sposób bardzo sugestywny. Z drugiej, jest to technologia niebywale mocno koloryzowana. Z trzeciej strony, bardzo potrzeba rozmowy o tym, jakie ograniczenia i słabości mają narzędzia, w które do teraz zainwestowano grube miliardy a kolejne trzeba jeszcze zainwestować, żeby je ulepszyć.

Na podstawie m.in
https://blockonomi.com/tech-investor-funds-ai-bot-with-50000-in-bitcoin/
https://decrypt.co/239340/marc-andreessen-sends-50k-in-bitcoin-to-an-ai-bot-on-twitter
oraz
https://open.spotify.com/episode/0amPjnNMWTj05AKCAqEhOC?si=e7ce6da4eeb74d5f