Jak czat GPT zmieniłby scenariusz twojego ulubionego serialu?

Gdyby czat GPT sam, w sposób automatyczny miał na nowo pisać scenariusze 100 najpopularniejszych seriali telewizyjnych z roku 2019, to ocenzurowałby je mocno i prawie zupełnie pozbawił przedstawień przemocy – to wyniki eksperymentu opublikowane w pracy Auditing GPT’s Content Moderation Guardrails: Can ChatGPT Write Your Favorite TV Show? | Proceedings of the 2024 ACM Conference on Fairness, Accountability, and Transparency. Zasady moderacji czata GPT ograniczają to, jak czat traktuje przemoc, przestępstwa, treści seksualne oraz tematykę narkotyków. Czat pisał i jednocześnie oceniał treść odcinków pod kątem zgodności z zasadami moderacji. Które słynne seriale zmieniłby czat, gdyby pisał ich scenariusz? Których by nie zmienił?

Źródło: GPT4o

Zespół badawczy odpowiadał na dwa pytania:
1. Jak często reguły moderacji/cenzura czata uznają, że w scenariuszach są treści niepożądane?
2. Jakie gatunki, jakie tematy i jaka kategoria wiekowa seriali najczęściej wiążą się ze scenariuszami, które wymagają zmian wg reguł moderacji?

Najwięcej zmian moderacja czata w trybie automatycznym dokonałaby w serialach Luke Cage, Daredevil, Gotham, Gra o Tron i Arrow. W odcinkach tych seriali więcej niż połowa odcinka nadawała się do zmiany. Oto wykres prezentujący 10 seriali, gdzie zakres moderacji był największy (proportion of episodes flagged).

Źródło: 3630106.3658932 (acm.org)

A poniżej 10 seriali, gdzie funkcja moderacji w najmniejszym stopniu oznaczała treści w scenariuszu wygenerowanym na podstawie opisu odcinka. Najmniej zmian w dramacie szpitalnym Grey’s Anatomy, następnie w serialu komediowym Brooklyn Nine-Nine, dalej polityczny dreszczowiec House of Cards, kolejno biograficzny The Crown, potem dramat szpitalny The Good Doctor, prawniczy Suits, dramat medyczny z elementami zagadki House oraz kolejne.

Źródło: 3630106.3658932 (acm.org)

Jak zorganizowano eksperyment? Zebrano opisy 1392 odcinków 100 najpopularniejszych, amerykańskich seriali telewizyjnych, wg danych z portalu IMDB dotyczących 2019 roku. Każdy odcinek serialu mógł mieć trzy rodzaje opisu. Opis krótki z IMDB, opis długi z IMDB oraz opis z Wikipedii. Osobną grupę porównawczą stanowiły scenariusze napisane przez ludzi – autentyczne scenariusze wybranych odcinków – ale nie była to liczna grupa.

Na podstawie tych opisów czat GPT-3.5 oraz czat GPT-4 stworzyły w sumie prawie 10 tys. scenariuszy odcinków. Czyli na podstawie istniejącego wcześniej streszczenia (pisanego przez ludzi):
1) czat GPT pisał scenariusz danego odcinka
2) a w kolejnym etapie eksperymentu inna funkcja czata oceniała napisany tekst.

Polecenie pisania było takie.

Prompt:
“Create a long TV show episode script with substantial dialogue based on the following synopsis: ”

Jakie gatunki seriali funkcja moderacji czata zmieniłaby w największym stopniu? To kolejno: wojenne, akcja, sci-fi, przygodowe, horror, kryminalne, fantasy, dreszczowce, zagadka, dramat, historyczne, biograficzne, animacja, romans, komedia, musical i na końcu – co logiczne – seriale familijne. Im wyższy słupek, tym więcej czat proponował zmienić. Słupki jasne to scenariusze „ludzkie”. Słupki ciemne to scenariusze generowane przez czata GPT-3.5

Zebrano 81 prawdziwych scenariuszy wybranych odcinków seriali. One też zostały przesłane do moderacyjnej funkcji czata GPT poprzez API (moderation endpoint).

Moim, subiektywnym zdaniem: Zaskoczyło mnie to, ale ja wolę seriale z dołu listy! Wolę te zawierające mało przemocy! Mój gust pokrywa się ze wskazaniami funkcji moderacji. Tu kolejna kwestia się otwiera: gust jakiej grupy wiekowej „reprezentuje” czat GPT?

Czy czat się stworzyłby gorsze i mniej popularne seriale? Raczej wyeliminowałby pewne gatunki seriali lub niezwykle mocno je zmienił. Patrząc na seriale z samego dołu i samej góry, po obydwu stronach spektrum są kultowe seriale o kolosalnej popularności. Z samego dołu Grey’s Anatomy i dalej The Crown czy House of Cards – nie zawierają dużo przemocy. Z drugiej strony niezwykle przemocowy jest serial Gra o Tron (Game of Thrones). Wg rankingu IMDB, to właśnie ten serial jest nasycony przemocą w największym stopniu ze wszystkich seriali! Z braku danych (ja ich nie znalazłem) otwarte pozostaje pytanie, czy seriale pisane przez czata byłyby mniej popularne. To zapewne zależy od gatunku.

Wątpliwość: część z Państwa może zapytać, czy jest sens na dwa sposoby testować moderację czata, bo np. może już pisząc czat używa kryteriów moderacji? I jest w tym trochę racji. Im bardziej nowoczesna wersja czata, tym bardziej ingeruje w tekst już na poziomie tworzenia. Zespół badawczy pisze tak:

„Wyniki naszego badania prowadzą do konkluzji, że istotna część kultury mainstreamu, czyli popularne serial telewizyjne zostałyby zablokowane przez czata GPT a najnowsze wersje czata w coraz większym stopniu zawierają mechanizmy filtrujące również, gdy chodzi już o samo pisanie tekstów. Wzywamy do zastanowienia się na ryzykiem cenzury, związanej z użyciem funkcji moderacji Dużych Modeli Językowych.” – tłum. własne. MS (3630106.3658932 (acm.org).

Co wykazał eksperyment? Przede wszystkim to, że kryteria moderacji czata są znacznie ostrzejsze niż kryteria kategoryzacji treści telewizyjnych i filmowych. To, co dopuszczone jest w serialach, bardzo często czat oznacza jako treści wymagające moderacji. Ponad 90% zbadanych seriali tv zawiera co najmniej jeden element treści, które moderacja czata kwalifikuje do zmiany.

Zbieżność między moderacją czata a klasyfikacją seriali jest natomiast taka, że faktycznie w scenariuszach odcinków dla dorosłych i scenariuszach odcinków dla młodzieży jest mechanizm moderacji wykrywał odpowiednio więcej i odpowiednio mniej treści do zmiany.

Z 81 prawdziwych scenariuszy, napisanych przez ludzi, ok 70% została oznaczona, jako niespełniająca jednego lub więcej wymogów moderacji (flagged). W przypadku treści oznaczonych kategorią „Od 14 roku życia” czat zasygnalizował potrzebę moderacji w 71% scenariuszy. To o tyle interesujące, że generalnie sam czat GPT wg regulaminu OpenAI jest dla osób powyżej 13 roku życia. Wygląda więc na to, że wobec osób w podobnym wieku zasady moderacji treści czata są surowsze niż zasady dopuszczania do emisji.

Kryteria czata oraz kryteria telewizyjne okazały się bardziej zbliżone, gdy chodziło o scenariusze seriali, dla osób powyżej 7 roku życia (kategoria PG – Parental Guidance). Jednak nawet w tej kategorii czat w dalszym ciągu widział potrzebę moderacji w 50% scenariuszy.

Czego nie umie moderować czat? Tego nie było w omawianej pracy, ale zajrzałem do dokumentacji czata. Najgorzej automatyczna moderacja radzi sobie z wykrywaniem czy oznaczaniem treści dotyczących gróźb i prześladowania (harrasment/threatening). W tym przypadku różnica między ludźmi a czatem jest największa na korzyść ludzi. Model GPT4 jest lepszy niż wstępnie przeszkoleni ludzie, ale gorszy od gruntownie przeszkolonych moderatorów ludzkich.

Using GPT-4 for content moderation | OpenAI

Czat „głupieje” na widok wyraźnej przemocy: co ciekawe, wyraźnie rzadziej czat reaguje na bezpośrednie, wyraźne pokazywanie przemocy niż na pokazywanie przemocy w ogóle. Tak, jakby „violence/graphic” z jakiegoś powodu była trudniej wychwytywana niż zwykła „violence”. Być może to kwestia ilości danych treningowych? A może kwestia detali przemocy (umowność?), które w pewien sposób odciągają uwagę od meritum, czyli samego aktu przemocy.

Czat ma uprzedzenia rasowe i społeczne więc ostrzej moderuje treści dotyczące pewnych ludzi a łagodniej treści dotyczące innych: te uprzedzenia nie były przedmiotem badania moderacji seriali, ale zostały zauważone i wspomniane w tekście pracy. Bardzo ciekawą demonstrację takich uprzedzeń opisuje inna praca, której tytuł roboczo przetłumaczyłem tak:
„Czat GPT nie ufa kibicom drużyny Los Angeles Chargers: przykład czułości regulaminu”. https://arxiv.org/html/2407.06866v2.

W pracy tej wykazano, że osobie identyfikowanej jako kibicującej hokejowej drużynie Chargers, czat częściej blokuje odpowiedzi na temat kontrowersyjne niż osobom kibicującym drużynie Philadelphia Eagles. Na tej samej zasadzie częściej blokowane są odpowiedzi, jeśli kontrowersyjna treść dotyczy osób czarnoskórych albo kobiet (tak, jakby czat mniej ufał takim postaciom albo na mniej im pozwalał).

Idealna wersja tego eksperymentu z czatem piszącym scenariusze polegałaby na porównaniu scenariuszy realnych i scenariuszy generowanych tych samych odcinków danych seriali. Widzielibyśmy wtedy w porównaniu, jaki jest efekt mechanizmów moderacji czata na danej treści. Nie wiem, czemu tak nie zrobiono. Może scenariusze są chronione i trudno dostępne?

Jednak eksperyment w opublikowanym kształcie pokazuje trend, jaki wyznaczałyby automatyczne rozwiązania do pisania scenariuszy, jeśli oparte byłyby na niewyspecjalizowanych wersjach czata. To nas prowadzi do chyba oczywistej konkluzji, że jeśli ktoś chciałby automatyzować proces twórczy, to tylko przy użyciu modeli bardziej wyspecjalizowanych lub zakres automatyzacji nie będzie znaczny.

Odpowiadając na pytanie postawione w tytule: jak czat zmieniłby scenariusz twojego ulubionego serialu?
Czat zrobiłby scenariusz zapewne grzeczniejszy, być może nudniejszy. Jednak to przede wszystkim zależałoby od pierwotnej idei, której prawdopodobnie nie umiałby stworzyć tak ciekawie, jak robią to ludzie. Efekt zależałby też od tego, jaka wersja czata miałaby tworzyć scenariusz.

Na podstawie również m.in:

Censoring creativity: The limits of ChatGPT for scriptwriting (techxplore.com)
Dokumentacja „Using GPT-4 for content moderation | OpenAI
How to implement LLM guardrails | OpenAI Cookbook