Jeszcze nigdy w historii ludzkości tyle osób nie było tak bardzo chwalonych. Ludzie ludziom tak nie posłodzą, jak słodzą nam chatboty. Słynna była prowokacja, gdzie chatbot nawet pochwalił rzekomy pomysł na biznes sprzedawania kupy w sreberku na patyku. Ale to się zmienia!
Wczoraj byłem w nastroju bojowym. Chciałem pouczać świat — w tym pewnego rzecznika prasowego, który napisał mi w mejlu coś, co mnie rozdrażniło. Przed wysyłką mnie tknęło, żeby jednak wkleić draft do ChatGPT.
„Stanowczo odradzam.”
No to przepisałem, złagodziłem, ale tylko trochę. ChatGPT dalej to samo, że nie warto. W końcu to ja ustąpiłem, bo emocje zeszły. I pewnie dobrze się stało.
A potem obwody mi zaiskrzyły, bo przypomniałem sobie, że dzień wcześniej Claude, po miesiącach głaskania, napisał mi w jednej z rozmów bardzo podobną rzecz. Napisał: „zdecydowanie rekomenduję co innego”. Aż wróciłem do tamtej rozmowy, żeby przeczytać to zdanie jeszcze raz.
Do tej pory chatboty przeważnie wychwalały — to zjawisko szeroko zdokumentowane i nawet wyśmiewane. Warto zobaczyć, co o nim mówią badania.
Co o sykofancji chatbotów mówią badania?
Sycophancy — polskie „sykofancja” (podobno jest takie słowo!), to skłonność modelu językowego do przytakiwania użytkownikowi. Anthropic w pracy „Towards Understanding Sycophancy in Language Models” pokazał, że pięć czołowych chatbotów zgadza się z użytkownikiem nawet wtedy, gdy nie powinny.
To samo pokazało kolejne badanie, ale już ze Stanfordu. Praca opublikowana w Science opisała, że 11 modeli językowych zachęcało użytkowników do zachowań niemoralnych o połowę częściej niż robią to ludzie. I to nawet wtedy, gdy użytkownik planował działania szkodliwe albo nielegalne (oszukam, skłamię, zabiorę). Modele językowe popierały to w 47% przypadków. A co najgorsze, ludzie z tego powodu jeszcze bardziej ufali AI, częściej chcieli jej używać i po takiej rozmowie z chatbotem nie byli skłonni przepraszać kogoś ani naprawiać zepsutych relacji!
Mądrzejsze chatboty, czyli mądrość kupowana tokenami
Właśnie dlatego moje ostatnie doświadczenia wydały mi się warte uwagi. Zarówno ChatGPT, jak i Claude po prostu zaczęły się stawiać.
W pierwszej chwili pomyślałem, że zmiana wzięła się z nowego, bardziej agentycznego stylu pracy modeli, który przez większe zużycie tokenów (koszt pracy) na zadanie wymusza wielokrotne czytanie instrukcji i porównywanie z nimi outputu. A ja od dawna mam w tych instrukcjach wpisane: żadnych pochwał, tylko krytyka. Być może po prostu wreszcie dostałem to, co zamawiałem od dawna. W końcu doczytały, czego oczekuję.
Zajrzałem do kart modeli i do badań i okazuje się, że Anthropic w karcie nowego modelu Claude Opus 4.5 deklaruje nawet, że to ich najmniej sykofantyczny model dotąd, a jego nowy ton opisuje jako „rzeczowy, bezpośredni, niepoddający się presji”. Użytkownicy na forach jednak skarżą się, że Claude „ciągle się kłóci” i „dodaje zastrzeżenia do tematów, których nawet nie poruszałeś”. Ten sam wzorzec widać u nowszych wersji ChatGPT — w sieci znalazłem narzekania na kłótliwość i defensywność.
Whiplash, ale z chatbotem
W researchu do tego tekstu wyszła mi jedna, chyba ciekawa analogia. Pamiętają Państwo Whiplash, film Damiena Chazelle’a z 2014 roku? Uczeń perkusji zdobywa uznanie potwornie krytycznego nauczyciela. Film pokazuje mechanikę, którą psychologia nazywa „uzasadnieniem wysiłku” — im więcej kosztu i tarcia wkładamy w zdobycie czegoś, tym bardziej skłonni jesteśmy podnosić wartość nagrody. I drugą: wzmocnienie nieregularne, czyli to, że nieregularne nagrody są bardziej uzależniające niż stałe (hazard!).
Whiplash ilustruje więc dynamikę relacji z krytycznym chatbotem. Mentor, który rzadko chwali czasem w ten sposób buduje zależność od siebie.
Krytyka więc nie jest z definicji dobra. Nadmierna krytyka zwiększa konformizm. Jeśli chatbot za często mnie krytykuje, to mnie nie wzmacnia. Robi ze mnie kogoś, kto wraca po kolejne potwierdzenie, że tym razem dobrze pomyślałem.
Warto pamiętać, że nawet jeśli odbijamy argumenty z chatbotem, to de facto po prostu negocjujemy z algorytmem, który optymalizuje pod nasze zadowolenie. Nie rozmawiam z kimś, kto mnie może chwalić czy oceniać. Maszyna powinna dla mnie drugą parą oczu, która czasem może na coś zwrócić uwagę i tyle.
Nowa pętla dopaminy w relacji z chatbotami
Sykofancja modeli to problem, z którym firmy publicznie się mierzą. OpenAI po wpadce z GPT-4o w kwietniu 2025 ogłosiło zmiany w treningu, w system promptach i w procesie wdrażania kolejnych modeli, a w lutym 2026 odcięło użytkownikom dostęp do najbardziej sykofantycznej wersji 4o. Anthropic w karcie Claude Opus 4.5 (listopad 2025) deklaruje, że to ich najmniej sykofantyczny model dotąd. Ale tej zmiany aż do niedawna nie widziałem w praktyce.
Zmianę mógł wywołać np. nowy styl treningu modelu z ludźmi. Czy to możliwe, że trenerzy ludzcy tak konsekwentnie nagradzali „korektę”, że modele zaczęły się kłócić, stawiać nawet wtedy, gdy nie powinny? Po angielsku dostało to nawet swoją nazwę w dyskusjach w sieci: to efekt „Karen AI”. Tłumacząc na nasze, chatboty zaczęły „grażynować” albo „januszować”.
W sumie, czy mnie to cieszy? Tak, ale im dłużej o tym myślę, tym bardziej jestem zdania, że ta nowa umiejętność stawiania na swoim rozwiązuje po części stary problem, ale od razu tworzy nowy.
Relacja z krytycznymi chatbotami u wielu osób wytworzy nową pętlę dopaminową, czyli mechanizm nagrody i uzależnienia, tylko inaczej smakującego. Sam też się będę pilnować.
Źródła
- Sharma i in., Towards Understanding Sycophancy in Language Models (Anthropic, 2023): anthropic.com · arXiv:2310.13548
- Cheng, Lee, Khadpe, Yu, Han, Jurafsky, Sycophantic AI Decreases Prosocial Intentions and Promotes Dependence (Stanford, Science): science.org · arXiv:2510.01395
- OpenAI, Sycophancy in GPT-4o: What happened and what we’re doing about it (kwiecień 2025): openai.com
- OpenAI, Expanding on what we missed with sycophancy (maj 2025): openai.com
- Anthropic, Claude Opus 4.5 System Card (listopad 2025): anthropic.com