Czy to się myli?

Amerykańska gazeta „Washington Post” przeprowadziła mini-test odpowiedzi udzielanych przez czat jedyny, darmowy czat GPT-4 w tej chwili na rynku, Bing Chat. Wyniki są ciekawe. Niejednoznaczne. Można powiedzieć, że wyniki są zbyt słabe jak na maszynę, która wielu osobom zastąpi samodzielnie wyszukiwanie i rozumienie wyników. Można też powiedzieć, że jak na technologię, która jest tak młoda, te wyniki są całkiem niezłe.

Tekst ma tytuł „Can AI chatbots replace Googling things? Our tests finds not yet”. Po polsku byłoby to „Czy czatboty sztucznej inteligencji mogą zastąpić googlowanie? Nasz test pokazał, że jeszcze nie„. Jak przeprowadzono ten test? Grupa ekspertek i ekspertów sformułowała kilkadziesiąt pytań a potem przejrzeli i przeanalizowali odpowiedzi, podawane adresy stron.

Jakie są wyniki testu? Oceniano, czy w odpowiedzi czat bot pisze prawdę i oceniano skąd bierze tę wiedzę.

Bing chat dostał 47 trudnych, specjalistycznych pytań, które wymyślili dziennikarze i dziennikarki specjalizujący się w różnych tematach. Udzielił odpowiedzi sięgając do 700 źródeł i cytatów. 60% cytatów, które Bing wkleił jako odpowiedzi, zdaniem oceniających było całkiem w porządku. 30% cytatów w odpowiedzi było „ledwie wystarczających”. 10% cytatów wprowadzało w błąd lub były niewłaściwą odpowiedzią.
Jeśli chodzi o źródła wiedzy, to przeważająca większość źródeł była jakości znakomitej albo wystarczająco dobrej (a to prowadzi do wniosku, że nawet ze źródła dobrej jakości maszyna może wybrać kiepski cytat).

Problem polega na tym, że jeśli czat bot się myli to jest pewny siebie, co ekspertka od technologii z „Washington Posta” innym razem określiła słowami „confidently wrong”. Taka postawa czyni więcej szkód niż zły wynik wyszukiwania w liście. Tutaj ktoś udziela złej odpowiedzi i robi to sposób przekonujący. Widać też, że przeszukując internet czat bot Bing czasem nie odróżnia źródeł i stron wiarygodnych od niewiarygodnych, bo potrafi jako źródło historyczne na temat historii Ameryki podać stronę restauracji, w dodatku zamkniętej restauracji. Innym razem jako źródło wiedzy o sytuacji w Ukrainie podaje rosyjską gazetę Prawda, czyli źródło propagandy i robi to bez komentarza. Jeszcze innym razem tę samą gazetę Prawda oraz inne rosyjskie media zaleca traktować z dystansem, bo one same nie potrafią wykazać, skąd mają swoje informacje.

Czy te wyniki cokolwiek powinny znaczyć dla nas, tu w Polsce? Zadałem Bing Chatowi pytanie, czy jeśli w polskim internecie nie ma dobrych odpowiedzi na moje pytania, czy wtedy szuka odpowiedzi po angielsku i ją tłumaczy? Odpowiedział, że tak. „…poszukam odpowiedzi po angielsku i przetłumaczę ją na polski”.

Pytając o sprawy polskie możemy dostać odpowiedzi „amerykańskie”, odnoszące się do Stanów Zjednoczonych i zdarzyło mi się to parę razy. W tekście z Washington Post pada uwaga, że dobrze byłoby, gdyby częściej, odważniej Bing chat przyznawał, że czegoś nie wie. Tak byłoby bezpieczniej.

Jak w porównaniu wypada Google? A czy Google przyznaje się do niewiedzy? Czy te wyniki oznaczają, że korzystanie z Google jest znacznie lepsze, bo łatwiej uchronić się przed nieprawdziwą informacją?

Wyszukiwarka Google odpowiada na pytanie w inny sposób niż Bing chat choć widać, że sposób pracy obydwu maszyn stał się z czasem podobny.
Niedawno pojawiły się nowe sposoby prezentowania wyników. Bywa, że w wynikach wyszukiwania z samej góry pojawi się cytat z jakiejś strony, jeśli ten cytat w dobry sposób odpowiada na nasze pytanie. Jeśli się da, to wyszukiwarka wyświetli zamiast suchej listy wyników wiedzę podawaną w formie streszczenia lub krótkiej, jednoznacznej odpowiedzi. To „featured snippets” (polecane fragmenty) lub answer boxes (kwadraty z odpowiedzią) lub knowledge cards (karty z wiedzą). Wyniki podawane są więc w sposób łatwiejszy do skonsumowania niż kiedyś. Przypomina to więc działanie czat bota, bo dostajemy opracowaną wiedzę a nie wyniki, które samodzielnie mamy przeczytać.

Wyniki wyszukiwania w Google wcale nie muszą być trafne, prawdziwe, sprawdzone i weryfikowane. Szczegóły działania wyszukiwarki Google są tajemnicą, ale coś tam wiadomo. Np to, że na górze listy wyników lądują strony, do których wiele innych stron linkuje, strony dobrze opisane, komentowane itd. To nie jest kryterium prawdy, ale popularności i schludności. Do tego dochodzą strony – wyniki opłacone (reklama). Do tego jeszcze wyniki „zmanipulowane” specjalnymi technikami.
Większość ludzi z resztą nie wybrzydza i nie czyta długo listy wyników. Nie jesteśmy krytyczni wobec treści (albo Google przeważnie podaje nam to, czego chcemy). Wybieramy jeden z pierwszych wyników na liście wyszukiwania i nawet nie klikamy na kolejną stronę listy. To wyniki z badania na zlecenie firmy Backlinko.

Jeśli wyniki wyszukiwania Google są zwierciadłem, to nie odbija ono świata rzeczywistego, ale ten internetowy i jest to rodzaj krzywego lustra. Problem z Bingiem chyba polega na tym, że używając go możemy się cieszyć z wygody, ale jednocześnie powinniśmy być jeszcze bardziej podejrzliwi niż wobec Google, bo styl pracy z Bingiem jest usypiający dla czujności.
[dopisane potem] Jedno mi jeszcze przyszło na myśl. Ja codziennie korzystam z Bing czata jako wyszukiwarki i (zdaje się, że) nie zdarza się, aby Bing halucynował/zmyślał zupełnie. Tekst z „Washington Posta” w sumie też to potwierdza. Oni narzekają na źródła kiepskiej jakości, ale nie na zmyślanie i nie na treści wyssane z palca.