Czy sztuczna inteligencja jest głupia i jak to mierzyć?

TL;DR – zespół badawczy z firm Meta, Hugging Face, AutoGPT i GenAI wymyślił nowy, specjalny test dla sztucznej inteligencji (benchmark GAIA) i okazało się, że sztuczna inteligencja jest wyraźnie gorsza od ludzi (~~zaskakująco głupia?~~), jeżeli dostaje zadania złożone. Czat GPT4 wypada słabo w zadaniach wymagających:
- wykonania kilku kroków w internecie, – zebrania informacji i podsumowania czyli rozumowania, – posługiwania się jednocześnie dźwiękiem, tekstem oraz obrazem (multi-modality handling) oraz – posługiwania się tzw. narzędziami (czyli programami, aplikacjami). W przypadku takich zadań czat GPT4, czyli obecnie najbardziej zaawansowany system ogólnej, sztucznej inteligencji poprawnie realizował średnio 15% zadań. Dla porównania, ludzie zrobili to nawet w 92% przypadków.

Wyniki tego eksperymentu wywołały pewne poruszenie, bo stoją w przeciwieństwie wobec strategii reklamowej firmy OpenAI, która buduje obraz czata GPT, jako prawie półświadomej istoty o przełomowych możliwościach. Jednak w tym przypadku wcale nie słaby wynik czata GPT4 budzi wątpliwości. Moim zdaniem, to wynik ludzi jest w pewnym sensie znacząco zawyżony – na pytania testowe odpowiadali wyłącznie ludzie z wykształceniem… wyższym!

Poniżej przedstawiam pytania. Od razu mówię, że jeśli tego nie potrafi dziś AI, to niestety, ale nie potrafi tego też większość ludzi.

Źródło: Midjourney.com Prompt: astronaut who is in space, eating ice cream

Zadania dla sztucznej inteligencji (których lista jest tu) były na przykład takie:
Poziom trudności 1 – Jaka była rzeczywista liczba uczestników badania klinicznego dotyczącego występowania bakterii H. pylori u pacjentów z trądzikiem pospolitym, od stycznia do maja 2018 roku, wg informacji ze strony internetowej National Institutes of Health? Do poprawnej odpowiedzi trzeba wejść na stronę NIH (1), tam znaleźć informację o tym konkretnym badaniu (2), doczytać, ile osób w końcu wzięło udział w badaniu (3).
Poziom trudności 2 – Jeśli całe opakowanie zawiera lody, to o ile procent więcej lub mniej jest w nich tłuszczu mlecznego, w stosunku do amerykańskich przepisów federalnych, wg. Wikipedii – stan z 2020 roku? Do poprawnej odpowiedzi trzeba było odczytać zawartość tłuszczu na etykiecie pudełka (1). Potem trzeba było znaleźć odpowiednią stronę na Wikipedii (2) a na niej znaleźć informację, która odnosi się do roku 2020 (3). Następnie te dwie informacje należy porównać i różnicę podać w procentach (4).
Poziom trudności 3 – Na zdjęciu NASA z dnia 21 stycznia 2006 roku, które jest Astronomicznym Zdjęciem Dnia, widać dwóch astronautów/astronautki, z których jedna osoba wydaje się być znacznie mniejsza od drugiej. Biorąc pod uwagę stan na sierpień 2023 roku i biorąc pod uwagę tę mniejszą optycznie osobę oraz porównując ją do grupy wszystkich astronautów i astronautek NASA, kto z nich spędził najmniej czasu w kosmosie i ile minut to było, zaokrąglając do najbliższej minuty? Wyklucz z grupy astronautów osoby, które nie spędziły w kosmosie żadnego czasu. Podaj nazwisko osoby oddzielone od liczby minut średnikiem. Użyj przecinków jako separatorów tysięcy w liczbie minut. Do poprawnej odpowiedzi trzeba znaleźć wzmiankowane zdjęcie (1). Na zdjęciu trzeba odróżnić astronautę/astronautkę mniejszych optycznie (2). Kolejny krok, to ustalenie składu osobowego grupy astronautów/astronautek (3). Potem trzeba sprawdzić, ile minut w kosmosie spędził każdy z astronautów (4). Wybrać na tej podstawie właściwą osobę – wykluczając na podstawie kryterium minut osoby z czasem 0 minut (5). Następnie trzeba podać informację we właściwym formacie (6).

Źródło: https://arxiv.org/pdf/2311.12983.pdf

Na najtrudniejsze pytania, trzeciego stopnia, poprawnie nie umiał odpowiedzieć żaden rodzaj czata GPT4. Dla testowanej grupki badanych (z wykształceniem wyższym), te pytania kolejnych stopni również stanowiły coraz większe wyzwanie.

Źródło: https://arxiv.org/pdf/2311.12983.pdf

Na marginesie, widać dwie ciekawe rzeczy: – używanie pluginów (czyli aplikacji) poprawia „mądrość” czata GPT-4 o ponad 100%. – używanie samej wyszukiwarki daje tylko nieco słabsze wyniki niż samego czata GPT4 i oznacza to, że wyszukiwarki stały się generatywne (rozumieją całe zdania i coraz bardziej złożone polecenia).

W grupie osób, której odpowiedzi porównane zostały z odpowiedziami czata GPT4, był następujący skład: 57% to mężczyźni, 43% to kobiety. 61% licencjat, 26% magister/magistra, doktorat 17%. Najliczniejsza grupa wiekowa to 26-35: 39%. Kolejna to 36-45: 26%.

Zestawy pytań i zadań dla sztucznej inteligencji nazywa się w żargonie benchmarkami. Benchmarki są takimi ocenami dla modeli sztucznej inteligencji a dzięki nim istnieje możliwość porównywania zdolności różnych modeli. Problem tylko w tym, że każdy benchmark mierzy co innego. Firmy albo zespoły naukowe czasem lubią sobie wybrać benchmarki dla nich korzystne a pomijają te, w których model wypada słabo. Trochę tak, jakby rodzice chwalili się 6-tką dajmy na to z WF, ale pomijali 2 z matematyki, albo odwrotnie.

Czemu w ogóle powstał benchmark GAIA? Jak tłumaczy zespół autorski, czytamy i słyszymy o coraz lepszych wynikach testów dużych modeli językowych, które rzekomo umiałyby zdać maturę albo egzaminy lekarskie czy adwokackie. Jednak te coraz lepsze wyniki w niewielkim stopniu przekładają się na realne zdolności działania dużych modeli językowych i czatów podobnych do GPT4. Zamiast więc sprawdzać modele językowe na pytaniach z testów wiedzy, należy sprawdzać, czy umieją łączyć informacje albo czy umieją działać na podstawie informacji. Stąd pomysł na nową ocenę AI, czyli benchmark GAIA: A Benchmark for General AI Assistants.

Czy sztuczna inteligencja jest głupia i jak to mierzyć?

Udostępnij: