Z tego wpisu dowiesz się:
– Czym jest czat GPT i jak powstaje ten rodzaj oprogramowania.
– A także: komu zależało na budowaniu mitów wokół tej technologii i czego spodziewać się w najbliższym czasie.

Źródło: GPT4/Dalle3 Opis obrazka/prompt: na dole strony
Rok temu usługa czata GPT w wersji 3,5 miała premierę i została udostępniona światu. Poprzedzały go wcześniejsze wersje czata, które były wersjami nieudostępnianymi. Technologia Dużych Modeli Językowych (LLM) stała się powszechnie znana 30 listopada 2022. Świat zareagował zdumieniem, niektórzy nawet zachwytem, ale byli też ludzie przestraszeni technologią, reagujący niechęcią. Zamieszanie i nieporozumienia brały się także stąd, że kierownictwo firmy OpenAI od początku stosuje bardzo sprytną taktykę marketingową.
Firma ta nie płaci za reklamy (co przyznał nie tak dawno jej prezes, Sam Altman) i aby móc działać musi generować sensację, by przyciągać zainteresowanie mediów oraz mieć darmową reklamę.
OpenAI generowało sensację na dwa sposoby: albo dzielili się obawami, jak bardzo groźna jest ta technologia i że jest niczym energia atomowa, zagraża światu oraz wymaga kontroli. Albo robili tak, że non-stop wprowadzali wiele, drobnych poprawek do czata GPT i opowiadali o nich, jako o super ważnych krokach do wielkiej, rewolucji AI, która zmieni świat na lepsze.
Czat GPT był i jest wg. OpenAI groźny oraz wspaniały. Ostatni kryzys w firmie, gdy ten sam prezes został najpierw zwolniony a potem zatrudniony z powrotem wykorzystali dokładnie w ten sposób: chwilę po jego zatrudnieniu wypuścili informację, że cała awantura wynikała z tego, jakoby odkryli coś bardzo wspaniałego i groźnego więc rada nadzorcza się przestraszyła konsekwencji odkrycia i zwolniła prezesa.
Wersja bardziej złośliwa i mniej katastroficzna mogłaby być taka, że po roku mamy do dyspozycji algorytm, który jest postrachem leniwych sekretariatów (pisze listy, pisma, proste teksty oraz streszcza teksty) i maszynkę produkującą zręczne obrazki, jakości maksymalnie półprofesjonalnej. Czat GPT4 na tym etapie po polsku nie zagraża praktycznie nikomu. Owszem, są firmy i biznesy, gdzie jedna, sprawna osoba może przejąć zadania innych osób, jeśli posługuje się czatem oraz programami z nim współpracującymi. Jednak to w tej chwili margines. Po angielsku zagroził niezbyt licznej grupie osób pracujących na zlecenie, wykonującej niezbyt kreatywne, drobne prace z pogranicza marketingu, reklamy czy przetwarzania danych (przepisz, streść, skróć, opracuj). Jedno z badań ekonomicznych w USA ten efekt szacuje na 3%-5% zmniejszenie rynku drobnych zleceń. Jednocześnie też czat potrafi pomóc w wykonywaniu prostych zadań programistycznych, bo języki programowania też zna.
Technologia czata GPT faktycznie jest bardzo ciekawa i mnie w pracy bardzo się przydaje, ale warto się nią interesować bez popadania w przesadę. Ponieważ nie jestem informatykiem/matematykiem więc moje streszczenie tej technologii jest takie: wyobraźcie sobie sieć procesorów komputerowych. Procesory te są połączone na zasadzie uproszczonej imitacji połączeń neuronowych w mózgu. Na dysku komputerowym zgromadzona zostaje tekstowa kopia całej masy tekstów, znalezionych w sieci: strony, fora, artykuły czy nawet książki. Potem te procesory używając specjalnych algorytmów przeliczają słowa z tych tekstów i zostaje obliczone prawdopodobieństwo, z jakim dane słowo wiąże się z innymi słowami.
Sieć neuronowa zbudowana jest tak, że procesory ułożone są warstwami. Każda warstwa procesorów przelicza coraz bardziej złożone połączenia między słowami. Sposobem pracy procesorów kierują algorytmy. Ważna też jest architektura sieci czyli sposób połączenia. W wyniku ich pracy powstaje obraz języka – trochę tak, jakby nauczyć się struktury i zasad, ale bez zapamiętywania samej treści. To ciekawa różnica między maszyną a człowiekiem, bo my jednak uczymy się i tak, i tak. Łapiemy strukturę języka, ale też uczymy się fragmentów tekstów i treści. W pewnym momencie gramatyka staje się intuicyjna, ale lubimy używać zasłyszanych powiedzonek czy zwrotów. Sieć neuronowa przeliczając na końcu tworzy tzw model wnioskowania (inference model), który nie jest zbiorem treści języka, ale informacją o sposobie, w jaki słowa łączyły się w zbiorze danych, na których sztuczna inteligencja uczyła się mówić.
Można to sobie wyobrazić jako siłę powiązań danego słowa z innymi słowami. Ponieważ słowa w językach są przekształcane – mają prefiksy i końcówki więc dla większej skuteczności słowa w danym języku są zamieniane w token. Token to może być krótkie słowo albo fragment słowa. W angielskim token to z reguły połowa słowa. Jedno słowo – dwa tokeny. Im dłuższe słowo, tym więcej tokenów. Mamy więc do czynienia z algorytmem, który tworzy mapę wymiarów tokenu, mapę jego powiązań. Każdy token ma np. kilka tysięcy wymiarów. Mówimy o „długości wektora” danego słowa czy tokenu a upraszczając możemy mówić o liczbie wymiarów słowa. Dla czata GPT-3 każdy token miał 2048 wymiarów. Kolejne wersje czata są znacznie, znacznie większe, ale długość wektora są nieznane. Im więcej tych wymiarów, tym większe wyrafinowanie językowe czata.
Zanim czat trafił do użytku sieć neuronowa musiała nauczyć się korzystać z tych słów. Uczyła się w paru etapach. Sama znajomość wymiarów słów, czyli prawdopodobieństwa z jakim się łączą, nie wystarcza do sensownej rozmowy. Potrzeba również odpowiednio dużej sieci procesorów, czyli sieci neuronowej, która wylicza wagi, czyli siłę połączenia między neuronami – procesorami. Regulacja tych połączeń pozwalała sieci rozpoznawać różną rolę słów, czyli ich kontekst i znaczenie. Stopień komplikacji sieci i reguły współpracy opisuje ta słynna liczba parametrów, o których czasem słyszymy, że jest ich tyle miliardów.
Na ostatnim etapie setki ludzi rozmawiają z czatem, oceniając jego odpowiedzi i reakcje, klikając TAK/NIE, ucząc algorytm, co jest pożądaną reakcją a co nie. Ta metoda nazywa się Human Reinforced Machine Learning. Oceny ludzi sprawiają, że słowa/tokeny otrzymują poprawione wartości połączeń z innymi słowami.
W ten sposób sieć uczy się i poprawia sposób tworzenia matematycznego obrazu języka. Na końcu powstaje model wnioskujący (inference model). Mówiąc obrazowo: z tej pomarańczy językowej zostaje wyciśnięty sok. W niektórych przypadkach nie jest nam już potrzebna sieć neuronowa (wyciskarka), bo ona była potrzebna do nauki i do stworzenia lub do poprawiania modelu. Jeśli jesteśmy zadowoleni z efektów, to uzyskujemy program komputerowy – który nazywamy modelem językowym, bo jest to… matematyczny model języka. Ten model jest zbiorem informacji o wagach – czyli sposobie działania sieci – i o strukturze. To nie jest ani słownik, ani tym bardziej encyklopedia.
Na marginesie, ten proces szkolenia sieci neuronowej jest dość kosztowny. Jeśli wszystko idzie zgodnie z planem (a często tak nie jest), to z reguły mowa o kilku tygodniach pracy takiej sieci. Koszty tworzenia dużego modelu językowego idą w setki milionów dolarów. Do tego potem dochodzą koszty utrzymywania infrastruktury potrzebnej do pracy czata. Nic dziwnego, że Microsoft, największy udziałowiec firmy OpenAI włożył w to przedsięwzięcie od 2016 roku ok 13 miliardów $.
Czat GPT jednak nieustannie jest poprawiany i „wyciskarka” stale jest potrzebna. Co kilka tygodni jest wypuszczana poprawiona wersja. Natomiast są też inne firmy, które wypuszczają swoje modele językowe do instalacji na komputerach. Z reguły potrzeba bardzo mocnego laptopa lub komputera do gier, który ma bardzo mocną kartę graficzną oraz bardzo mocny procesor i bardzo dużą pamięć RAM.
Po roku stosowania wiemy, że czat GPT po polsku jest znacznie słabszy niż po angielsku. Uczył się przede wszystkim angielskiego. Cała sieć pracowała ucząc się angielskiego i tworzyła reguły pracy opierając się na angielskich tekstach. Mówimy, że model językowy czata GPT3 miał np. 175 miliardów parametrów (a GPT4 ma pewnie ponad bilion) i większość tych parametrów, to reguły pracy sieci, które model wyliczył w odniesieniu do słów i tekstów z języka angielskiego. To zaś automatycznie przekłada się na gorszą jakość języka polskiego. Mamy znacząco odmienny język i w związku z tym czat GPT4 po polsku nie umie rymować. Nie naśladuje znanych pisarek ani pisarzy. Nie zna dialektów polskiego ani slangów. Nie ma bogatego słownictwa historycznego.
Nie wiemy, o ile mniej materiału treningowego czat miał po polsku w stosunku do podstawowego języka, czyli angielskiego. Możemy się jednak domyślać, jakiego rzędu mogła tu być dysproporcja. Konkurencyjny wobec czata GPT model językowy Llama 2, wypuszczony przez firmę Meta (do której należy Facebook), wśród danych treningowych miał 0,09% danych po polsku. 89,70% było po angielsku. Reszta to inne języki – w tym języki kodowania.
M.in z tego powodu warto byłoby mieć kiedyś duży model językowy, którego podstawowym językiem lub przynajmniej uzupełnionym językiem byłby właśnie polski. To dałoby impuls rozwojowi sztucznej inteligencji w Polsce a także wyrównało szansę branżom kreatywnym w starciu z branżami z zagranicy.
Po angielsku, dzięki tym miliardom parametrów sieci, dzięki tysiącom wymiarów słów czat GPT4 jest w stanie tak biegle kalkulować odpowiedzi, że powstaje wrażenie obcowania z istotą świadomą. Do tego stopnia czat ma „zmapowany” język, że jest w stanie przejść rozmaite testy psychologiczne oraz odpowiadać na pytania, jakby miał empatię czy zdolność czytania stanu umysłu osób. Co ważne, jakość jego odpowiedzi jednak się waha – w zależności od pytania i od kontekstu i od języka, odpowiedzi czata raz będą świetne a innym razem mogą być zaskakująco złe.
Najlepszy poziom ma wersja płatna właśnie, czyli GPT4. Jednocześnie umie też „czytać” obrazki – czyli umie je opisać i zinterpretować. Umie też czytać rozmaite formaty plików i danych oraz je opisywać i interpretować. Jeśli wyślesz do czata plik Excela z danymi demograficznymi czy ekonomicznymi to czat jest w stanie je opisać, zinterpretować. Dość wygodne, prawda?
W tej chwili miliony osób z zawodów dziennikarskich, z reklamy i branż podobnych korzystają z czata, który jest takim asystentem przy pracy nad tekstem. Nie jest stanie zastąpić nikogo, ale znacznie przyspiesza wykonanie niektórych zadań polegających na interpretacji danych, na redakcji tekstu czy na generowaniu prostych tekstów lub fragmentów tekstów.
Jeśli okaże się w przyszłości, że czat w miarę bezbłędnie będzie rozumiał obrazki, to otworzy się wiele zastosowań biznesowych. Np. appka połączona z kamerą, która rozumie obrazy i w określonej sytuacji na przykład wysyła komunikat albo sygnał do innej appki. Celem wielu firm z tej branży jest też opracowanie czata, który będzie bezbłędnie pomagał personelowi medycznemu – robiąc notatki z rozmowy z chorymi, podpowiadając możliwe diagnozy, prowadząc dokumentację medyczną, porównując dane z dokumentacji, przeglądając badania.
Innym celem firmy OpenAI jest udoskonalenie czata tak, by zaczął też „rozumieć” matematykę. Jako maszyna do liczenia słów raczej tego nie potrafi, ale firma podłącza do czata moduły potrafiące wykonywać obliczenia. To generalnie metoda rozwoju czata – podłączanie do modelu językowego jakiejś innej technologii. Jeśli jednak udałoby się uzyskać maszynę, która doskonale się komunikuje oraz umie w abstrakcyjne myślenie (matematyka), to powstanie mówiąca maszynka, umiejąca w sieci wykonywać zadania, których nikt jej wcześnie nie nauczył – sama się nauczyła.
Prawdopodobnie obiecującym kierunkiem rozwoju czata jest też uczynienie z niego „mózgu” dla wielu różnych programów. Ten mózg rozpoznaje teksty, interpretuje je i potrafi reagować z sensem. To oznacza, że możemy tworzyć połączenia między różnymi programami, aplikacjami, gdzie czat prowadzi procesy: przyszedł mejl -> zostaje przeczytany -> zachodzi zaplanowana reakcja zapisania czegoś na dysku -> inny program zostaje uruchomiony i wpisane do niego jakieś dane itd. To się po angielsku nazywa ‚workflows’ i do tej pory wymagało zatrudnienia firm programistycznych, które musiały specjalnie dla firmy zaprojektować i wdrożyć oprogramowanie.
Mniej ambitne plany rozwoju czata obejmują też zmniejszenie jego skłonności do konfabulowania, co w slangu informatycznym było nazywane ‚halucynowaniem’ – dlatego, że brak danych czat uzupełniał danymi mniej adekwatnymi wobec pytania i dawał odpowiedzi, które mogły robić złudzenie prawdziwych. Inny cel praktyczny w rozwoju czata to uczynienie, by jego odpowiedzi były mniej losowe a bardziej uzależnione od precyzji pytania. W tej chwili na to samo pytanie do czata, jeśli będzie odpowiednio długie, to za każdym razem dostaniemy nieco inną odpowiedź.
Ja używam czata codziennie i bardzo często. Najważniejsze w pracy z nim jest pisanie odpowiednich poleceń: nie mogą być ani zbyt długie, ani zbyt krótkie. Zbyt długie będą mętne i nie pomagają zrozumieć celu działania. Zbyt krótkie nie pomogą algorytmowi wyłapać lub użyć potrzebnych związków między zestawami słów. Raz mi to wychodzi lepiej, raz gorzej. Zgadywałbym, że zależnie od typu zadania, to czat zwiększa moją efektywność w pisaniu od 10% do 80%. Jeśli mam pisać po angielsku, to czat znacznie zwiększa moją wydajność. Jeśli zadanie jest żmudne i nudne, to również znacznie zwiększa. Jeśli zadanie jest nowe, nieznane, to pewnie bliżej 10%, ale wtedy i tak bardzo pomaga rozpocząć pracę. Czat GPT jest moim partnerem w wymyślaniu i pisaniu. Nie jest przewodnikiem, ale pomocą. Kimś w rodzaju bystrego stażysty – a zatem pomoże, ale nie powinien kierować.
Generalnie jest narzędziem wg mnie dość drogim, jak na naszą część Europy – kosztuje 20$ miesięcznie. Czyli ok 1200 złotych rocznie. Dwa razy tyle, co oprogramowanie Microsoftu. Czekam na rozwój konkurencji, która wymusi zejście z ceny. Tą konkurencją, mam nadzieję będą możliwe do ściągnięcia modele językowe innych firm. A przyszłości również model językowy polski, posługujący się bardzo dobrą polszczyzną.
Jeśli zaleźliście błąd w tekście, macie uwagi albo pytania, to chętnie przyjmę.
Prompt: An illustration depicting a human user sitting at a computer with the GPT chat interface displayed. The image includes a symbolic representation of artificial intelligence, like an abstract neural network or a digital cloud, encompassing various aspects of the text such as education and the creative industry. Additionally, there are elements like books, documents, art images, and programming code to illustrate the wide range of GPT chat applications. Emotional symbols like awe, fear, and curiosity are included to represent the diverse public reactions to the technology.