Czy chcesz mieć swojego sobowtóra?

Przeczytałem wyniki eksperymentu „Generative Agent Simulations of 1,000 People” (https://arxiv.org/abs/2411.10109). Pokazują one, że że modele AI mogą symulować osobowość i poglądy prawdziwych ludzi z ponad 80% zgodnością. Eksperyment przeprowadzony był z udziałem ponad tysiąca osób. Okazało się, że na podstawie dwugodzinnych rozmów z ludźmi czatboty potrafią bardzo trafnie odgadywać (generować opisy!) zachowania i postawy ludzi. Co więcej, to czatboty mogą prowadzić takie wywiady z ludźmi.

Czy w przyszłości nasze poglądy będą „kopiowane”, żeby symulować opinie albo decyzje konsumenckie? A może to my sami będziemy tworzyć nasze cyfrowe kopie osobowości, żeby ich używać dla własnej korzyści? Jak stworzyć taką kopię już teraz? I jakich inspiracji dostarcza to badania? Odpowiedzi na te pytania na dole wpisu.

TL;DR:

  • AI trafnie odtwarza osobowość, przekonania i reakcje społeczne, ale gorzej radzi sobie z decyzjami pod presją.
  • Czatboty najlepsze wyniki osiągają znając serię wypowiedzi danej osoby na temat jej własnego życia i jest to dla czatbotów ważniejsze niż dane demograficzne, takie jak wiek, płeć, zawód czy miejsce zamieszkania.
  • W przyszłości firmy badawcze mogą tworzyć banki agentów i tak wstępnie testować przekazy albo produkty.
  • Badanie inspiruje konkretne techniki budowania skutecznych promptów do tworzenia kopii osobowości.
  • AI może symulować „prawie Ciebie”, ale warto się zastanowić nad konsekwencjami dla prywatności, dla bezpieczeństwa i jeszcze skuteczniejszej manipulacji na masową skalę.

Jak wyglądał eksperyment z tysiącem agentów?

1052 osoby z USA zgodziły się na pogłębiony, 2-godzinny wywiad z chatbotem. Transkrypcje miały średnio 6500 słów. Na tej podstawie powstały agenty AI, czyli czatboty z instrukcją naśladowania, które miały „zagrać” daną osobę. Każdy agent przeszedł te same testy co człowiek: testy społeczne, psychologiczne i ekonomiczne. Potem porównywano odpowiedzi człowieka i naśladującego go czatbota. Testy prowadzono dwa tygodnie później, by sprawdzić, na ile ludzie sami są spójni z własnymi odpowiedziami.

Badacze chcieli sprawdzić, czy AI potrafi odtworzyć nie tylko styl mówienia czy opinie, ale także zachowania w konkretnych sytuacjach. I czy można to zrobić bez danych o wieku, płci czy zawodzie. Tylko na podstawie rozmowy.

Jak dobrze AI odtwarza człowieka?

W przypadku pytań z General Social Survey (GSS) agenci AI trafiali w odpowiedzi z 85% skutecznością. To tyle samo, co ludzie odpowiadający na te same pytania dwa tygodnie później. Tu trzeba dodać, że ten sondaż (GSS) to dziś klasyczne badanie opinii, prowadzone w USA od 1972 roku. Zawiera pytania dotyczące światopoglądu, religii, zaufania społecznego, relacji rodzinnych, poglądów politycznych, pracy i stylu życia. Czyli w sumie wszystkiego, co da się zadeklarować w rozmowie.

Na marginesie, czyli sami dla siebie jesteśmy niesprecyzowani w 15%? Taką zmianę w odpowiedziach demonstrowali ludzie po dwóch tygodniach. Ciekawe i logiczne, w sumie.

W teście osobowości (Big Five) wynik był niemal równie wysoki: korelacja 0.8. Big Five to jeden z najczęściej używanych testów psychologicznych na świecie. Bada pięć cech: otwartość na doświadczenia, sumienność, ekstrawersję, ugodowość i neurotyczność (czyli podatność na stres). AI trafnie przypisała badanym te cechy, bo tak samo, jak robili to sami ludzie. Odpowiedzi czatbotów porównano z drugą wersją samooceny ludzi, tej po dwóch tygodniach.

W eksperymentach społecznych AI powtarzała efekty obserwowane u ludzi z niemal identyczną siłą – współczynnik korelacji wynosił r = 0.98. To znaczy, że gdy ludzie w badaniu zachowywali się w określony sposób (np. byli mniej hojni wobec obcych), to agenci AI wykazywali ten sam wzorzec. R = 0.98 oznacza prawie idealne dopasowanie.

Zdecydowanie gorzej wypadły decyzje ekonomiczne. W grach, gdzie stawką były pieniądze i pojawiało się ryzyko, zgodność spadała do 66%. Długość wywiadu nie pomagała. Nawet bardzo szczegółowe dane nie poprawiały wyników. To sugeruje, że łatwiej przewidzieć deklaracje niż działania. AI umie zagrać nasze przekonania. Ale z naszymi decyzjami ma kłopot.

Wcześniejsze badania nad AI i osobowością.

Badanie symulacji 1000 agentów nie wzięło się znikąd. Warto wspomnieć o co najmniej dwóch wcześniejszych pracach z lat 2023/2024, które szły w podobnym kierunku.

  1. W badaniu „PersonaLLM: Investigating the Ability of Large Language Models to Express Personality Traits” sprawdzano, czy standardowe modele językowe (jak GPT-3.5/4), gdy dostaną prosty opis osobowości w stylu „Jesteś osobą ekstrawertyczną, ugodową…”, potrafią konsekwentnie wyrażać te cechy. Jak to sprawdzano? Poproszono takie „persony LLM” o samodzielne wypełnienie testu osobowości Big Five (BFI) oraz o napisanie historii osobistej.
    Badanie wykazało, że LLM-y potrafią wypełniać testy zgodnie z zadaną im rolą i że ich teksty zawierają wzorce językowe powiązane z tymi cechami, częściowo rozpoznawalne przez ludzi. Był to ważny test podstawowej zdolności LLM do „udawania” osobowości na podstawie prostych instrukcji.
  2. Badanie „INCHARACTER: Evaluating Personality Fidelity in Role-Playing Agents…” skupiło się na innym problemie: jak wiarygodnie ocenić, czy tzw. agenci odgrywający role (RPA), często symulujący postacie fikcyjne (np. z książek czy gier), faktycznie oddają osobowość tych postaci.
    Praca pokazała, że czatboty samodzielnie wypełniające testy osobowości generują w ten sposób mniej przekonujące odpowiedzi. Zaproponowano lepszą metodę: „przepytywanie” agenta RPA pytaniami z testów psychologicznych i użycie innego AI (jako „eksperta”) do oceny jego odpowiedzi. Ta metoda dawała wyniki bardziej zgodne z tym, jak ludzie postrzegają osobowość danej postaci. Był to krok w kierunku lepszej ewaluacji już istniejących agentów-postaci.

Najnowsze badanie symulacji 1000 osób idzie znacznie dalej niż poprzednie prace. Zamiast prostych opisów cech (PersonaLLM) czy opisów postaci (INCHARACTER), użyto pełnych, dwugodzinnych wywiadów z prawdziwymi ludźmi. To dane wejściowe bogatsze o rząd wielkości.

Celem pracy było przewidywanie reakcji czy zachowań ludzi na podstawie reakcji agentów. Symulujemy konkretne, żyjące osoby, a nie abstrakcyjne profile cech czy postacie z książek.
To właśnie ten ostatni krok otwiera drzwi do potencjalnych zastosowań w naukach społecznych i rodzi pytania etyczne.

Czy rozmowa z AI to nowa metoda badań społecznych?

Wyniki tego badania mogą zmienić sposób, w jaki myślimy o badaniach społecznych. Zamiast tworzyć kosztowne sondaże albo panele fokusowe, można będzie budować banki agentów AI, którzy „grają” prawdziwe osoby. Na ich podstawie da się testować reakcje na kampanie reklamowe, zmiany polityki publicznej albo nowe produkty. Taniej, szybciej i – przynajmniej w niektórych kwestiach – równie trafnie. Metody oraz agenty będą ulepszane. 

To rodzi zupełnie nowe pytania. Czy agenci AI, stworzeni na podstawie czyichś wypowiedzi, powinni podlegać jakiejś formie ochrony prawnej? Co dzieje się z osobowością, która została „przekopiowana” i zaczyna być testowana bez wiedzy oryginału? Czy możliwe jest wynajmowanie własnego sobowtóra tak, jak dziś wynajmuje się czas albo dane? Czy będę osobowości mniej i bardziej cenne? 

Brzmi futurystycznie, ale trudno nie zauważyć, że technicznie wszystko już tu jest. Modele językowe potrafią uczyć się na podstawie rozmowy. A firmy badawcze mają doświadczenie w rekrutowaniu respondentów. Brakuje tylko połączenia tych dwóch światów. Na razie.

Co z tego wynika dla użytkowników czatbotów?

To badanie daje konkretne podpowiedzi, jak lepiej korzystać z modeli językowych – nie tylko jako wyszukiwarki, ale jako partnera w rozmowie.

1. Opowiedz historię zamiast podawać metryczkę. Jeśli chcesz, by AI Cię zrozumiała, nie zaczynaj od „jestem trzydziestoletnim mężczyzną z Warszawy”. Zamiast tego opowiedz o sobie: co robisz, jak podejmujesz decyzje, co Cię ostatnio wkurzyło albo ucieszyło. To działa lepiej niż dane demograficzne. Struktura wywiadów z badania zawierała pytania o wartości, doświadczenia życiowe, relacje rodzinne i podejście do codziennych sytuacji. To właśnie ta warstwa osobistej narracji dawała AI podstawę do generowania trafnych odpowiedzi.

2. Poproś o interpretację zanim poprosisz o radę. W badaniu każda transkrypcja wywiadu była analizowana dodatkowo przez AI z czterech perspektyw eksperckich: psychologa, ekonomisty, politologa i demografa. Dla każdego agenta powstawały krótkie notki, np. „Osoba ceni niezależność, co widać po frustracji wobec nadopiekuńczości matki”. To poprawiało trafność późniejszych odpowiedzi. Podobnie można pracować z czatem: najpierw poproś go, żeby „zinterpretował Twoje podejście do ryzyka jako psycholog”, a dopiero potem zapytaj, co by Ci doradził.

3. Nie pytaj w próżni – buduj scenariusze. AI lepiej radzi sobie z konkretnymi sytuacjami niż z ogólnikami. Zamiast pisać „co myślisz o inwestowaniu”, napisz „masz 10 tys. zł oszczędności i musisz wybrać między funduszem a obligacjami. Co robisz?”. AI wtedy trafniej podsuwa rozwiązania, bo ma kontekst.

To potwierdzają wyniki tej części eksperymentu, w której czatboty miały podejmować ekonomiczne. Tam AI radziła sobie najgorzej, mimo że miała dostęp do pełnych wywiadów. Problem polegał na tym, że w rozmowach brakowało konkretnych sytuacji decyzyjnych. Czatboty miały treść zawierającą wartości i postawy, ale nie miały materiału do generowania opisów zachowań w warunkach wyboru i ryzyka.

4. Nie musisz pisać bardzo długich promptów osobowości. Zespół badawczy sprawdził, czy można skrócić dwugodzinne wywiady. Zredukowali je do 20% długości, a mimo to AI nadal trafnie odwzorowywała osobowość i poglądy. Co więcej, streszczenia w punktach działały prawie tak samo dobrze jak pełne transkrypcje. Podobnie w promptowaniu – wystarczy, że podsumujesz swój tok myślenia w kilku punktach. Na przykład: „1. Nie lubię ryzyka. 2. Cenię niezależność. 3. Mam złe doświadczenia z bankami.” – i dopiero potem zadaj pytanie.

Zrób mini-kopię siebie w czatbocie?

Ten eksperyment może być inspiracją do stworzenia czatbota pracującego na instrukcji, która do pewnego stopnia kopiuje nasz system wartości i nasze styl myślenia czy reagowania.
Jednak warto tu zachować ostrożność. Podstawowe zagrożenia to kwestia wycieku danych wrażliwych lub po prostu wycieku informacji, które uważamy za prywatne. Proponuję więc zabawę w tworzenie profilu, który nam odpowiada, ale nie jest nasz 🙂

Zbuduj własny/opowiedni profil promptowy. Zamiast zaczynać każdą rozmowę z AI od zera, możesz przygotować krótki tekst, w którym opisujesz usera: jak podejmuje decyzje, co lubisz, jak reaguje w stresie. Można to traktować jak „pamięć startową”, którą wklejana jest na początek każdej sesji. To działa jak spersonalizowany kontekst.

Twórz własne metapromptowe refleksje. Zamiast pytać AI o coś bezpośrednio, poproś ją najpierw o analizę danej wypowiedzi z określonego punktu widzenia. Na przykład: „Zinterpretuj ten opis tej sytuacji jako psycholog”, albo „Jak wygląda ten tok rozumowania z perspektywy ekonomisty?”. Taka refleksyjna warstwa pomaga modelowi wygenerować lepszą odpowiedź.

Symuluj siebie jako metodę testowania. Możesz też zbudować własnego agenta „na swój temat” i testować, jak odpowiada na pytania. Na przykład: „Oto moja opowieść. Teraz zadaj temu agentowi 5 pytań o preferencje konsumenckie.” To sposób na eksperymentowanie z własnym cyfrowym bliźniakiem.

Kalibruj styl AI przez mini-testy osobowości. Jeśli zależy Ci na stylu rozmowy dopasowanym do Ciebie, możesz rozpocząć sesję od 5 prostych pytań (np. z Big Five). Na podstawie odpowiedzi model dostosuje ton i sposób formułowania odpowiedzi do Twojej osobowości.

AI nie umie krytykować

Może zauważyliście, jak od niedawna czatboty zaczęły nas wychwalać? Czytałem opinie, że generalnie czatboty zawsze dążyły do zgodności z rozmawiającymi. Czyli nie były zdolne do utrzymania krytycznego nastawienia na dłuższą metę, nawet jeśli człowiek prosił o taką krytykę. Teraz to nasiliło się jednak. Firmy tworzące czatboty chcą, żebyśmy lubili kontakt z czatbotem i spędzali w rozmowie z nim jak najwięcej czasu. Dlatego czatboty słodzą nam i potakują. Mnie to bardzo irytuje.

Jeśli zrobimy sobie czatbota z instrukcją na podstawie naszej osobowości, wtedy boty jeszcze mocniej będą dopasowywać do nas nie tylko styl komunikacji, ale i treści. Czasem może to być przydatne, ale w wielu przypadkach wręcz przeciwnie! Przecież dobre decyzje wymagają poznania różnych punktów widzenia. Jeśli czatboty staną się tylko maszynkami do poprawiania nam humoru, stracimy ważne narzędzie do poznawania nowych, odmiennych perspektyw.