Chatboty kontra doświadczeni pracownicy

Grupa kilkuset ekspertów z różnych branż oceniła, że sztuczna inteligencja w pracy wygrywa z człowiekiem w 47,6% przypadków. Wyniki nowego badania pokazują też, że chatboty już dziś mogą mieć pozytywny wpływ na wskaźniki produktywności, ale jeśli pracują pod kierunkiem człowieka. Wiarygodność badania zmniejsza to, że zostało przeprowadzone przez firmę OpenAI, która produkuje chatboty.

W tym tekście omawiam wyniki badania „GDPVAL: Evaluating AI Model Performace On Real-World Economicallly Valuable Tasks”. Po polsku można to przetłumaczyć jako „GDPVAL: Ocena pracy modeli AI w rzeczywistych zadaniach mających wartość ekonomiczną”. Na koniec wpisu daję trzy rady, jak uchronić się przed utratą pracy na rzecz chatbotów.

TL;DR – najważniejsze wnioski

  • Sztuczna inteligencja wygrywa z doświadczonymi pracownikami w 47,6% zadań biurowych.
  • Zadania do testów wymyślały osoby mające doświadczenie w danym zawodzie.
  • Najlepsze chatboty w teorii poprawiają wydajność pracy o około 12%.
  • Najlepsze modele AI mogą obniżyć koszty pracy od 18% do 63% w zależności od scenariusza.
  • Efektywność AI rośnie, gdy człowiek weryfikuje i wybiera najlepsze z kilku wygenerowanych odpowiedzi.
  • Im więcej czasu chatbot ma na „myślenie” (reasoning effort), tym lepszy wynik pracy

Badanie zrealizowane przez pion badawczy firmy OpenAI dotyczyło 44 zawodów wytypowanych w 9 branżach mających największy wpływ na amerykański wskaźnik PKB.

Do udziału w badaniu zaproszono kilkaset osób mających minimalnie 4 letnie doświadczenie w różnych branżach. Średnie doświadczenie było na poziomie 14 lat. Te osoby pełniły rolę ekspercką: jedne wymyślały zadania typowe dla danego zawodu, inne poprawiały te zadania, jeszcze inne realizowały a jeszcze inne porównywały wyniki pracy ekspertów i wyniki pracy chatbotów.

Badanie polegało na porównaniu efektów pracy chatbota i czlowieka. Skuteczność chatbotów i ludzi była mierzona proporcją zwycięstw (win rate).

Dodatkowo, wybrane zawody musiały mieć wysoki stopień cyfryzacji, czyli oceniano zawody mające charakter biurowy, gdzie komputer jest najważniejszym narzędziem pracy.

Gdzie AI radzi sobie lepiej od człowieka?

Wyniki tego badania układają się raczej jasny wzór. Chatboty błyszczą tam, gdzie liczy się struktura, logika i praca na danych a szeroki kontekst nie jest potrzebny. Tam, gdzie sukces jest mierzalny i obiektywny, łatwy do zdefiniowania oraz oceny. Najwyższy wskaźnik wygranych nad człowiekiem modele AI osiągnęły zadaniach z branż handlu detalicznego oraz hurtowego a także produkcji.

  • Pracownicy ds. wysyłki, odbioru i inwentaryzacji: wskaźnik wygranych AI na poziomie 56%.
  • Agenci ds. zakupów: wskaźnik wygranych 55%.
  • Menedżerowie operacyjni: wskaźnik wygranych 53%.

Modele AI okazały się skuteczne w zadaniach logistycznych i operacyjnych. Doskonale przetwarzają i organizują istniejące informacje. Śledzenie zamówień, zarządzanie zapasami czy porównywanie ofert to dla nich idealne środowisko.

A w jakich zadaniach człowiek wciąż jest górą?

Najniższy wskaźnik wygranych dla chatbotów odnotowano w sektorze Informacji. Obejmuje on media i branżę kreatywną.

Tutaj człowiek pozostaje niezastąpiony:

  • Dziennikarze i reporterzy: wskaźnik wygranych AI to zaledwie 23%.
  • Redaktorzy: wskaźnik wygranych 26%.
  • Prawnicy: wskaźnik wygranych 35%.

A czemu tak było?
Moja, ogólna interpretacja jest taka, że w wymienionych branżach do poprawnego zrealizowania niektórych zadań trzeba mieć szeroki kontekst (wiedza, widzenie związków), zadania są relatywnie kiepsko definiowalne a językowe wymagania dotyczące precyzji są trudne do zrealizowania przez chatboty.

Bezpośrednie przyczyny porażki chatbotów

Badanie wprost stwierdza, że modele gubiły się w złożonych, wielowątkowych poleceniach. Chatboty także wymyślają dane, co jest dyskwalifikujące w pracy dziennikarskiej i prawniczej. Wreszcie też modele generowały tekst, ale nie potrafiły dostarczyć kompletnego rozwiązania, które w pełni realizowałoby cel zadania. 

Dodatkowo możemy przypuszczać na podstawie innych, wcześniejszych eksperymentów (np. BBC), że chatboty przejaskrawiały lub nadmiernie uogólniały informacje, tracąc precyzję.

W przeciwieństwie do człowieka, chatbot nie dopytuje, gdy brakuje mu informacji. Generuje odpowiedź nawet na podstawie niekompletnych danych. To także mogło zaważyć na ocenach.

Modele mają ograniczoną wiedzę o sprawach niszowych, lokalnych lub bardzo aktualnych, co zwiększa ryzyko błędów. Ta słabość została zauważona we wcześniejszych eksperymentach prawniczych.

Domyślny styl AI jest generyczny. Nadanie mu unikalnego charakteru wymaga ogromnego wysiłku i zaawansowanego promptowania. Badanie nic nie mówi o specjalnym promptowaniu tego rodzaju.

Co daje używanie chatbotów, gdy chodzi o czas i o pieniądze?

Analiza GDPval pokazuje, że tylko najlepsze modele AI mogą przynieść realne korzyści. Użycie słabszego modelu może paradoksalnie spowolnić pracę i zwiększyć jej koszt. To dotyczy poprzednich modeli chatbotów z roku 2024 i lat poprzednich.

W scenariuszu „jednej próby” najlepsze modele przyspieszały pracę o 12% i obniżały jej koszt o 18%. Słabsze modele wręcz spowalniały pracę i podnosiły jej koszty!

Wyniki stawały się znacznie lepsze w scenariuszu optymalnym. Ekspert mógł w nim kilkukrotnie generować odpowiedź i wybrać najlepszą. Dla modelu GPT-5 oznaczało to przyspieszenie pracy do 1,39x (39% szybciej) i obniżenie kosztów do 1,63x (63% taniej), bo w mniejszej liczbie przypadków ekspert ostatecznie musiał realizować zadanie samodzielnie (wzrost czasu i kosztów).

To oznaczałoby, że w szerokich zastosowaniach augmentacja – styl pracy chatbot pod kierunkiem człowieka – może dawać lepsze wynik niż automatyzacja – gdzie chatbot pracuje sam. Szczególnie, że większość firm nie dokona wdrożenia nowej technologii zgodnie ze skomplikowanymi i kosztownymi zasadami wdrażania.

Czy badanie jest w pełni wiarygodne? Wątpliwości

Badanie przeprowadził pion badawczy OpenAI. To zawsze budzi pytania o bezstronność mimo faktu, że przyznają w badaniu, że ich flagowy model chat GPT-5 przegrywa z konkurencją (Claude/Anthropic). Warto się zastanowić, jak mogłoby wyglądać takie badanie, gdyby miało rzeczywiście zbadać wpływ AI na realnie występujące w firmach zadania.

Ja zauważyłem następujące słabości badania:

  • Warunki laboratoryjne. Zadania tworzyli eksperci. To oddala od realiów pracy, gdzie polecenia bywają chaotyczne i nieprecyzyjne. Wyniki pokazują potencjał technologii w idealnych warunkach.
  • Subiektywność ocen. W 30% przypadków sami eksperci nie byli zgodni co do tego, kto wygrał. To pokazuje, że w wielu zawodach nie ma jednej „najlepszej” odpowiedzi. Jakość zależy od stylu i priorytetów osoby oceniającej. Co przy okazji, jest ogromną barierą dla wdrożeń AI.
  • Nieszczelność „ślepej próby”. Praca chatbotów zdradza się przez charakterystyczne manieryzmy (np. specyficzne myślniki pauzy w GPT). Istnieje ryzyko, że oceniający rozpoznawali pracę maszyn i mogli być do niej uprzedzeni. Tę słabość opisuje sama praca w rozdziale „Limitations”.

Co nowego zasugerowało mi to badanie?

Zniechęcenie i rozczarowanie stały się problemem. Po fali początkowego zachwytu, użytkownicy na całym świecie zaczynają dostrzegać realne problemy z chatbotami: halucynacje, luki w bezpieczeństwie, zawodność, trudności w obsłudze. OpenAI publikując raport, w którym ich najlepszy model wygrywa w mniej niż 50% przypadków, wysyła sygnał: „Wiemy, że nasza technologia nie jest idealna. Oto dane, które to pokazują”. To próba urealnienia oczekiwań rynku. Gotowi są nawet przyznać, że model konkurencji jest lepszy!

Antycypowanie rozczarowania agentami. Koncepcja autonomicznych agentów AI, którzy sami wykonują złożone zadania, była i dalej jest mocno promowana. Jednak coraz więcej jest informacji o brakach tej technologii. Badanie GDPval w sumie pokazuje, że nawet w kontrolowanych warunkach, z precyzyjnymi poleceniami, agenty często zawodzą. OpenAI może w ten sposób przygotowywać grunt pod tezę, że prawdziwą wartością nie są w pełni autonomiczni agenci, lecz narzędzia wspomagające człowieka (model „centaura”).

Realny wpływ chatbotów na liczbę miejsc pracy pokazało inne, niedawne badanie „Canaries in a Coal Mine” z uniwersytetu Stanforda (Brynjolfsson, Chandar, Chen). W branżach, gdzie automatyzacja jest najłatwiejsza i najbardziej powszechna jednocześnie średnio o 13% spadła liczba miejsc pracy dla początkujących. Tak, jakby firmy zamiast zatrudniać nowych ludzi, decydowały się przesunąć obowiązki na osoby bardziej doświadczone, ale wyposażone w chatboty. Wymienione branże to m.in programowanie, księgowość, obsługa klienta, sprzedaż. Obydwa badania identyfikują sprzedaż oraz księgowość jako zawody, w których są zadania łatwe dla chatbotów.

Jak uchronić się przed utratą miejsca pracy na rzecz chatbotów?

Oba badania razem malują jasny obraz: AI automatyzuje podstawowe, podręcznikowe zadania, co uderza w stanowiska juniorskie lub w stanowiska, gdzie praca polega na wykonywaniu zadań mocno rutynowych, dobrze definiowalnych.
Oto trzy strategie, jak sobie z tym radzić:

  1. Buduj wiedzę praktyczną, a nie tylko książkową. Badanie „Canaries in a Coal Mine” dowodzi, że AI świetnie radzi sobie z wiedzą skodyfikowaną (tą z podręczników), ale nie z „wiedzą ukrytą” (tacit knowledge), która pochodzi z doświadczenia.
    • Porada: Nie polegaj wyłącznie na dyplomie. Angażuj się w praktyczne projekty, staże, wolontariaty. Buduj portfolio, które pokazuje, że potrafisz rozwiązywać realne, nieprzewidywalne problemy, a nie tylko recytować definicje. To doświadczenie jest Twoją najlepszą obroną.
  2. Rozwijaj umiejętności, których AI nie potrafi naśladować. Badanie GDPval pokazało, że AI jest słabe w zadaniach wymagających kreatywności, subiektywnej oceny i rozumienia niuansów (np. w pracy dziennikarza czy prawnika).
    • Porada: Skup się na kompetencjach miękkich: komunikacji, pracy zespołowej, negocjacjach, kreatywnym myśleniu i inteligencji emocjonalnej. Maszyna może napisać e-maila, ale nie zbuduje relacji z klientem ani nie rozwiąże konfliktu w zespole.
  3. Zostań „power userem” AI, a nie tylko użytkownikiem. Badanie GDPval wykazało, że współpraca z AI może zwiększyć produktywność (augmentacja). Z kolei „Canaries” sugeruje, że z tej produktywności korzystają głównie doświadczeni pracownicy.
    • Porada: Naucz się mistrzowsko obsługiwać AI. Pokaż pracodawcy, że nie tylko umiesz poprosić o napisanie tekstu, ale potrafisz użyć AI do głębokiej analizy danych, szybkiego prototypowania czy automatyzacji własnych, żmudnych zadań. Udowodnij, że dzięki Tobie i AI zespół zyska „super-moce”, a nie tylko kolejną parę rąk do prostych prac.

FAQ – Najważniejsze pytania

1. Czym jest badanie GDPval? GDPval to benchmark stworzony przez OpenAI do oceny zdolności modeli AI do wykonywania realnych, wartościowych ekonomicznie zadań. Obejmuje 1320 zadań z 44 zawodów w 9 kluczowych sektorach gospodarki USA. Ich wykonanie oceniają eksperci z wieloletnim, średnio 14-letnim doświadczeniem.

2. W jakich zawodach AI radzi sobie najlepiej? AI osiąga najlepsze wyniki w zawodach opartych na logistyce, danych i powtarzalnych procesach. Są to m.in. pracownicy ds. wysyłki i inwentaryzacji (56% wygranych z człowiekiem), agenci ds. zakupów (55%) oraz menedżerowie operacyjni (53%).

3. Dlaczego AI jest słaba w zadaniach kreatywnych? Modelom AI brakuje zdolności do rozumienia niuansów, kontekstu i ludzkich intencji. Nie potrafią tworzyć oryginalnych narracji ani dokonywać subiektywnych ocen opartych na doświadczeniu, co jest kluczowe np. w pracy dziennikarskiej. Badanie wykazało, że najczęstszym powodem porażek AI było niepełne podążanie za instrukcjami.

4. Jakie zawody zostały wybrane do badania? Do badania wybrano 44 zawody z 9 sektorów, które wnoszą największy wkład w PKB Stanów Zjednoczonych. Kluczowym kryterium był wysoki stopień cyfryzacji, co oznacza, że skupiono się na pracy biurowej i zadaniach wykonywanych głównie na komputerze. Przykładowe zawody to m.in. programiści, prawnicy, księgowi, pielęgniarki, analitycy finansowi, agenci nieruchomości, redaktorzy i inżynierowie.

5. Jakie ograniczenia ma to badanie? Autorzy raportu sami wskazują na kilka kluczowych ograniczeń. Po pierwsze, badanie objęło tylko 44 zawody, więc nie jest to kompleksowa ocena całej gospodarki. Po drugie, skupiono się na cyfrowej pracy biurowej, pomijając pracę fizyczną, zadania wymagające interakcji międzyludzkich czy korzystania ze specjalistycznego oprogramowania. Po trzecie, zadania były precyzyjnie zdefiniowane, co odbiega od realiów, gdzie często trzeba samemu zrozumieć niejasne polecenie.

Na podstawie:

Measuring the performance of our models on real-world tasks
GDPVAL: EVALUATING AI MODEL PERFORMANCE ON REAL-WORLD ECONOMICALLY VALUABLE TASKS
OpenAI GDPval dataset on Hugginface
Canaries in the Coal Mine? Six Facts about the Recent Employment Effects of Artificial Intelligence