Modele AI grają w Radio Erewań

Stary dowcip: do Radia Erewań dzwoni słuchacz i pyta czy to prawda, że na placu Czerwonym rozdają samochody? Tak, ale nie na placu Czerwonym, tylko w Leningradzie. I nie rozdają, tylko zabierają. I nie samochody, ale rowery. W tym stylu był cykl dowcipów antysowieckich, które ilustrowały skalę dezinformacji w czasach komunizmu. Przyszło mi do głowy, że opisują również problemy z zachowaniem informacji w systemach agentycznych. Już wyjaśniam.

Systemy agentyczne AI w 2026 działają w sposób przypominający strukturę tych dowcipów. Wykazało to niedawne, głośne badanie Microsoftu. Treść dokumentu po przejściu przez przepływ kilku agentów wygląda podobnie do oryginału, ale liczby są inne, daty przesunięte, nazwy ze zmienioną literą. Marketingowo to się nazywa „agentic workflow”. Strukturalnie to jest Radio Erewań. Tylko bez puenty i z budżetem.

Co zmierzył Microsoft

To właśnie zjawisko zmierzyła praca Microsoft Research o nazwie DELEGATE-52. Wzięli dziewiętnaście modeli AI — od najmocniejszych „frontier” po mniejsze — i przetestowali w pięćdziesięciu dwóch dziedzinach zawodowych: od księgowości przez krystalografię i raporty finansowe po notację muzyczną. Modele dostawały dokument, na którym kolejno miały wykonać dwadzieścia zadań edycyjnych.

Wyniki: w najlepszych modelach po dwudziestu krokach 25% treści dokumentu jest zmienione. Średnia ze wszystkich 19 testowanych modeli — 50% zmian. W większości przypadków skala zmian jest tak duża, że wynik do niczego się nie nadaje.

Jak to zmierzono — sprytna metoda

Metoda pomiaru wygląda tak: każesz modelowi zrobić w dokumencie konkretną zmianę, potem każesz mu tę samą zmianę cofnąć. Jeśli dokument wraca inny niż na początku, wiadomo, że coś po drodze zgubił. W eksperymencie zadania pochodziły z bardzo różnych branż:

model 3D drzewa palmowego: zmień nazwy elementów na łacińskie terminy botaniczne, potem przywróć z pliku CSV; podziel plik na pień i koronę, potem scal z powrotem;
diagram techniczny (architektura systemu): uporządkuj komponenty według wysokości w schemacie, potem przywróć oryginalną kolejność;
księgowość: przegrupuj pozycje na kategorie wydatków, potem scal z powrotem w jeden raport;
tekst literacki: zmień nazwiska postaci na inne, potem cofnij zmianę i przywróć oryginalne.

W każdym przypadku zadanie jest jednoznaczne: dokument na końcu ma być identyczny z oryginałem.

Charakterystyka problemu

Błędy są pojedyncze, trudne do wyłapania. Model jedzie poprawnie przez kilkanaście kroków, a potem nagle zmienia liczbę, wycina akapit albo przepisuje cytat własnymi słowami. Zjawisko nie jest nowe — każdy, kto choć raz puścił AI w pętli na tym samym dokumencie, wie, że coś się gubi. Wartością tej pracy jest pomiar i pokazana skala a nie samo odkrycie.

Dwa detale z badania, które warto zapamiętać. Pierwszy: wzmocnienie agentów narzędziami — kalkulatorem, edytorem, możliwością wykonywania kodu — nie pomaga. Średnio pogarsza wynik o 6%! Drugi: krótkie testy (dwie-trzy interakcje) nie pozwalają przewidzieć wyniku po dwudziestu. Dwie minuty demo to coś zupełnie innego niż efekt pracy prawdziwego systemu.

Gdzie to przeszkadza najmocniej

Ten problem nie dotyczy wszystkich w tym samym stopniu. Zaboli najmocniej tam, gdzie precyzja ma znaczenie zawodowe lub finansowe:

branże regulowane — prawo, medycyna, podatki (e-faktury, KSeF, JPK) — gdzie zmiana liczby w opinii biegłego, dawki w wypisie albo cytatu z dokumentu nie jest kłopotem, tylko realną szkodą dla człowieka;
relacje outsourcingowe — w których raport przechodzi przez kilka modeli, różnych firm i komórek, zanim trafi do końcowego odbiorcy, klienta. Klient widzi gotowy PDF, nie sześć poprzednich wersji;
w firmach, które kupiły obietnicę „agent zrobi to za ciebie” przed przeprowadzeniem pomiarów i testów.

Trzy patenty z mojej praktyki

Co z tym robić w praktyce? Mam swoje systemy agentowe i potwierdzam istnienie problemu. To moje trzy patenty, gdy chodzi o pracę nad tekstem.

1. Generuję pytania, a nie odpowiedzi. Pierwsza decyzja przed każdym zadaniem: czy zależy mi w nim na bezbłędnym wyniku, czy szukam pomysłu lub oceny. Czasem szukam pomysłu. AI w trybie burzy mózgów, eksploracji alternatyw, drążenia tematu — tam Radio Erewań jest zaletą, a nie błędem. Każde „tak, ale nie samochody, tylko rowery” otwiera nowy kierunek myślenia. Bezbłędnej weryfikacji potrzebujesz tam, gdzie produkujesz odpowiedź. Nie tam, gdzie szukasz opcji.

2. Fact-locking — kluczowe elementy na bok. Po angielsku to się nazywa fact-locking, czyli ochrona najważniejszych elementów. Na przykład w moim narzędziu do tekstów dziennikarskich elementem chronionym są cytaty. Każdy cytat z oryginalnego materiału — wywiadu, dokumentu, transkrypcji — jest identyfikowany, oznaczany i osobno zachowywany w archiwum. Modele AI wykonują serię zadań na całości tekstu, a na końcu mniejszy, prostszy model porównuje cytaty w wersji końcowej z tym, co zapisano. Brak cytatu jest w porządku — skrócenie to decyzja redakcyjna. Jeśli wykryta jest zmiana w cytacie, wtedy następuje wymiana na oryginał. Tym samym wzorcem można chronić wszystko, co nie powinno się zmienić — kwoty, daty, dane.

Badanie pokazuje, że słabsze modele po prostu kasują treść (to widać i łatwo to wykryć). Ale najlepsze aktualnie modele (GPT-5.4, Gemini Pro 3.1, Opus 4.6 itd.) zachowują strukturę i podmieniają wartości, szczegóły — badanie nazywa to „cichą” zamianą.

Mechanizm bliski temu wzorcowi opisali Madaan i in. (Self-Refine, 2023): iteracja z osobną krytyką poprawia wyniki o około 20%. U mnie krytyk jest jeszcze osobnym, mniejszym modelem — to dodatkowa warstwa bezpieczeństwa.

3. Praca równoległa zamiast szeregowej. Klasyczny „agentic workflow”, przynajmniej w najprostszym wariancie, wygląda jak lampki na choince spięte szeregowo: gdy jedna padnie, gaśnie cała girlanda. Pierwszy agent przetwarza błędnie, drugi czyta wynik pierwszego, trzeci czyta wynik drugiego — błędy się kumulują, bo każdy krok polega na tym, co zrobił poprzednik. Chodzi o ucieczkę od tej sytuacji — od jednej, połączonej linii pracy nad tym samym dokumentem. Zamiast łańcucha, puszczam to samo zadanie pięć razy równolegle. Każda ścieżka startuje od oryginału, żadna nie widzi pozostałych. Minus tego rozwiązania to znacznie większe koszty.

Python — jedyny bez problemów

Praca pokazała w jednej tabelce ciekawą rzecz: jedyna domena w całym badaniu, w której modele trzymają się dobrze, to programowanie w Pythonie. Wszystko inne — od krystalografii przez raporty finansowe po notację muzyczną — leży. Dlaczego Python? Z powodu testów. Każda zmiana daje się zweryfikować: kompiluje się czy nie, działa czy nie.

Na marginesie: modele wywracają się najrzadziej na dokumentach o treści powtarzalnej, dokumentach numerycznych — typowych dla nauki, inżynierii czy programowania. A najwięcej błędów robią w dokumentach pisanych językiem naturalnym, z bogatym słownictwem — proza pisana przez ludzi. Czy to oznacza, że ta technologia najmniej dotknie dziennikarstwo, copywriting, prawo i branże podobne? Niestety tak nie uważam. Powstaną po prostu systemy wzmacniające pracę pojedynczych osób, ale nie zastępujące ludzi. Rozmawiam dużo z prawnikami używającymi AI i wiem, że technologia znacznie przyspiesza pracę analityczną.

Najlepsza informacja, gdy chodzi o AI

Praca Microsoftu mierzy problem, ale jednocześnie mówi coś, czego nikt nie cytuje: w 2026 te systemy nadal potrzebują człowieka. Jesteśmy na etapie augmentacji ludzi, a nie automatyzacji pracy.

Przepływy agentowe sprawdzają się tam, gdzie automatyzują wybrane zadania w ramach zawodu — tworzenie brudnopisów, ekstrakcja danych, przeszukanie archiwum, rozpisanie pomysłu na warianty. Nie sprawdzają się tam, gdzie sprzedaje się je jako zastąpienie zawodu.

Warto też zerknąć na badanie IBM Research o tym, jak pracujący umysłowo (knowledge workers) realnie używają LLM (n=323, lata 2023-2024). Wyniki do pewnego stopnia potwierdzają obserwacje Microsoftu — niejako z drugiej strony. Tylko 11% osób używa modeli w wielu krokach przepływu pracy; reszta używa LLM do pojedynczych zadań, ostrożnie. Czyli intuicyjnie omijają dokładnie tę konfigurację, w której DELEGATE-52 zmierzyło 25-50% zniekształceń.

Jest jeszcze jeden kontekst, w którym warto czytać tę pracę. Słynny wykres METR z 2025 roku pokazuje, że długość zadań, które LLM potrafi wykonać z 50% sukcesem, podwaja się co kilka miesięcy. Ten wykres był (jest?) traktowany jako dowód, że za 2-3 lata będziemy mieli autonomicznych agentów wykonujących całe projekty.

DELEGATE-52 nie obala tego trendu, tylko uzupełnia obraz: potencjał modeli rośnie, ale dokładność nie nadąża. Ludzie nie są do zastąpienia. Być może ich praca jest mniej warta, być może szybciej można ją wykonać, ale nie są do zastąpienia. To najlepsza wiadomość.

Źródło: LLMs Corrupt Your Documents When You Delegate — Philippe Laban, Tobias Schnabel, Jennifer Neville (Microsoft Research, kwiecień 2026).

– Marcin Sawicki
Piszę o używaniu AI i pracy z chatbotami. O mnie · LinkedIn