Luty 2024 – seria wstrząsów w świecie AI

Wyścig między największymi firmami technologicznymi świata wyłącznie się rozkręca. W lutym 2024, na przestrzeni zaledwie dwóch tygodni OpenAI, Google oraz chińska firma Alibaba ogłosiły udane testy nowych możliwości modeli sztucznej inteligencji. Każda z tych informacji jeszcze 2-3 lata byłaby wielką sensacją, inspirującą media i sztukę na długi czas. W lutym 2024 każda z nich zaciekawiła opinię publiczną na moment, bo zaraz potem konkurencja ogłaszała coś nowego, skutecznie odwracając uwagę. W Ameryce na takie zachowanie mówi się „stealing someone’s thunder”. Jednak tej serii zdawałoby się niezwykłych wiadomości warto się przyjrzeć bez emocji. Dlatego chciałem odczekać jakiś czas i dopiero teraz, na spokojnie podzielić się moimi spostrzeżeniami.

Źródło: Midjourney / Prompt: The great wave off Kanagawa 8bit art

Najpierw firma Google 15 lutego ogłosiła, że czat Gemini 1.5 Pro w specjalnych testach okazał się umieć precyzyjnie znajdywać konkretne zdania bardzo długich tekstach albo innych zbiorach danych. Ten rodzaj testu, gdzie czat musi znaleźć konkretne zdanie albo fakt nazywa się „Needle In A Haystack” (NIAH). Google podało, że Gemini 1.5 Pro w zasadzie bezbłędnie (99%) odnajduje szukane informacje w tekstach liczących 100 000 – 300 000 słów (w żargonie technicznym mówi się o maksymalnie 1 milionie tokenów). Tyle słów liczy gruba książka. Te same możliwości dotyczą maksymalnie 60 minut wideo lub 11 godzin nagrań dźwięku.

Modele językowe sztucznej inteligencji od dawna potrafiły tak wydłużyć okno kontekstowe, czyli umiały „obejmować rozumem” np. długie teksty, ale pierwszy problem polegał na tym, że robiły to z błędami. Przełom tu polega na osiągnięciu niespotykanej, prawie zupełnej skuteczności. Drugi problem tak wielkiego okna kontekstowego nie został rozwiązany równie skutecznie a mowa o kosztach takiej operacji. W obecnej chwili te koszty są na tyle spore i na tyle takie operacje obciążają system, że Google tę możliwość udostępnia wyłącznie niektórym klientom, wybranym firmom. Jednocześnie zapowiedzieli prace nad znalezieniem metod bardziej wydajnych obliczeń.

Co w tym mogło zaniepokoić OpenAI, czyli konkurencję? Otóż czat GPT jest znany z tego, że notorycznie przegapia informacje z analizowanych tekstów i materiałów a jakość jego pracy jest niestabilna. W zasadzie jest pewność, że jeśli pracujemy na tekście powyżej 30 stron, to w którymś momencie czat GPT zacznie zmyślać i robić błędy. Jeśli więc Google oznajmia, że ich czat potrafił bezbłędnie pracować na znacznie większych zbiorach danych, ludzie odbiorą to jako informację, że generalnie Google pod tym względem bije płatną wersję czata GPT. Od miesięcy obserwujący zastanawiali się, czy w końcu Google dogoni OpenAI, jeśli chodzi o możliwości czata. Czy w końcu to nastąpiło?

Jeśli czat potrafiłby znaleźć konkretne zdanie w dokumencie liczącym kilkaset stron (lub nawet dłuższym!) albo potrafiłby odnaleźć konkretną scenę w 60 minutowym filmie, to po pierwsze, znacznie wykracza poza możliwości konkurencyjnego czata GPT a po drugie, sztuczna inteligencja mogłaby np. w naszych, prywatnych danych zacząć szukać interesujących wzorów, czy powiązań. Pierwsze z brzegu polecenie: „Przeczytaj moje mejle z ostatnich 5 lat i powiedz mi, jak wygląda typowy mejl mojego autorstwa, jakie robię błędy z punktu widzenia sztuki komunikacji i jak mogę pisać lepiej?”. Czat GPT, co wielokrotnie sprawdziłem sam, nie daje nawet zbliżonych możliwości. A integracja Gemini z Workspace, czyli appkami Google (Docs, Gmail, dysk itd) jest tu również niebagatelnym atutem.

Jednak czat GPT mimo chimeryczności, mimo ostatnio licznych, drobnych awarii, w dalszym ciągu zapewnia nieco wyższą jakość pracy. Upraszczając, pamięć może ma krótszą, ale IQ jest nieco wyższe. Z punktu widzenia większości zastosowań to zapewne nie będzie widoczne, ale opinie, które czytam podkreślają, że czat GPT jeszcze nie dał się dogonić. Tu ciekawy teścik porównawczy <–.

23 lutego Google opublikowało kolejne wyniki. Tym razem chodziło o model AI nazwany Genie (Dżin). To jest model sztucznej inteligencji, który na podstawie obserwacji uczy się naśladować działania. Na podstawie materiałów wideo Genie nauczył się, jak tworzyć proste gry komputerowe oraz jak sterować ramieniem robota. Te dwie, zdawałoby się odległe czynności łączy to, że model AI nauczył się przewidywać ruch oraz akcję. Jeśli bowiem z rysunku, szkicu albo fotografii Genie umie zrobić prostą grę komputerową, to znaczy, że w pewnych granicach „rozumie” obrazy i zasady ruchu oraz interakcji z wirtualnym światem. Jeśli zaś je umie obliczać, to może też sterować ramieniem robota, bo do sterowania potrzeba właśnie tak samo: umiejętności obliczania i przetwarzania ruchu oraz analizy obrazu, czyli tego, co „widzi” robot.

Źródło: 🧞 Genie: Generative Interactive Environments (google.com)

Genie jest ewidentnie produktem w fazie rozwoju i sygnałem trwającej rewolucji w robotyce, która łącząc się ze sztuczną inteligencją daje maszynom zdolność działania bez konieczności drobiazgowego opisywania i programowania akcji. Kiedyś być może gry komputerowe będą tworzone przed modele AI, ale zanim to nastąpi w grach komputerowych pojawią się miliony zupełnie autonomicznych botów/graczy, napędzanych przez sztuczną inteligencję. To będą postaci z gier, które będą autentycznie funkcjonować niezależnie i to będą boty, grające z dużo większą inteligencją niż obecnie.

Google nie wzbudza takiego zainteresowania jak OpenAI i zanim publiczność zdążyła zaciekawić się wynikami publikacji od Google to 25 lutego swoje wyniki ogłosiło OpenAI a oni pokazali osiągniecia swojego modelu sztucznej inteligencji zwanego SORA. Podali, że tworzy on maksymalnie 60 sekundowe wideo na podstawie polecenia tekstowego (text-to-video) a wielkie zainteresowanie wywołał fakt, że to 15x dłużej niż inne modele do tworzenia wideo (PikaLabs czy Runway).

Czy to właśnie informacje od Google zmusiły OpenAI do reakcji? Być może nigdy się nie dowiemy, ale faktem jest, że przyćmili Google. Ponownie przyćmili. Tu najsłynniejsze wideo zaprezentowane jako efekt pracy modelu SORA. Warto mu się przyjrzeć uważnie, bo jednocześnie robi wrażenie fakt, że to zostało wygenerowane przez AI na podstawie tysięcy godzin wideo, ale trzeba też odnotować mankamenty czy ograniczenia.

Źródło: Sora (openai.com)

Co bardzo ważne, firma OpenAI prezentując całą serię filmików nie poinformowała, jak skuteczny jest model SORA, czyli w ilu próbach zostały wyprodukowane te filmiki. Czy spacer w Tokio to efekt 5 prób? A może 30? A może raczej 100 czy nawet 1000 prób?

OpenAI podkreśla, że model jeszcze robi błędy, nie w pełni rozumie fizykę świata przedstawianego, czasem myli strony lewą i prawą oraz zdarza mu się nie rozumieć poleceń zawierających opis akcji w czasie a także czasem mnoży obiekty w scenach zbiorowych. Tak jak na tym filmie przedstawiającym słodkie szczeniaczki, które klonują się nagle.

Źródło: Sora (openai.com)

Nie jest to jeszcze usługa udostępniona (wbrew temu, co pisało wiele osób lubiących postować bez sprawdzenia i bez zastanowienia). I nie padła żadna zapowiedź, kiedy mogłoby nastąpić. Jedno z prestiżowych amerykańskich pism technologicznych (MIT Technology Review) podało, że SORA nie zostanie prędko ukończona. Mamy więc do czynienia z akcją wizerunkową, która wywołała spore wrażenie.

Widać, że SORA ma potencjał wywołania zmian na rynku produkcji wideo. Czy od razu zagrozi produkcji filmów fabularnych? Nie. Już teraz niektóre filmy fabularne w znacznej części są tworzone cyfrowo a SORA na początku po prostu poszerzy paletę możliwości cyfrowej kreacji. Modele generatywnej AI są udostępniane a potem stopniowo rozszerzane są ich możliwości. Tak było do tej pory i rozsądne założyć, że tak będzie dalej.

Obstawiałbym, że wejście tej technologii od razu będzie mieć natomiast większy wpływ na rynek internetowego marketingu czy internetowej reklamy. Jakaś część prezentacji i reklam rzeczywiście zacznie być produkowana wyłącznie przez AI, ale nie wszystko. Pamiętajmy, że treści generowane przez AI będą musiały być oznaczone. To nie będzie dotyczyć sztuki, czyli w filmach tego nie zobaczymy. Natomiast telewizja i reklama będą musiały oznaczać wideo stworzone przez AI, jeśli to będzie samodzielny przekaz. W reklamach oznaczenie będzie konieczne. A reklama, podobnie jak i sama telewizja, czasem bardzo lubi udawać rzeczywistość. Wyobrażamy sobie reklamy produktów FMCG by generative AI? Jedne tak, ale inne już nie.

Podsumowując: SORA w momencie wejścia na rynek, najprawdopodobniej będzie jednym z produktów automatyzujących pracę kreatywną. Ludzie z obsługi produkcji wideo, czyli np. charakteryzacja, światło, kostiumy, transport, catering, sprzęt, obsługa kamer i dźwięk będą mieli mniej okazji do pracy, ale całej pracy nie stracą. To będzie powolne gotowanie żaby. Dopóki SORA nie będzie dawać możliwości precyzyjnego kreowania wideo, dopóki nie będzie można zachować w różnych filmikach stałego wyglądu miejsc, osób i przedmiotów, dopóty wpływ na miejsca pracy nie będzie miał charakteru tsunami.

I na koniec EMO od Alibaby. Chiński model AI, którego efekty pracy opublikowano 27 lutego. EMO w realistyczny sposób animuje portrety osób, tworząc mimikę i dopasowując ruch ust do ścieżki dźwiękowej. Na końcu tego wideo macie animowaną Monę Lisę, która recytuje Szekspira i to jest nie-sa-mo-wi-te! Obraz faktycznie ożył.

Poniżej: osobno wideo, gdzie Mona Lisa mówi Szekspira

Źródło: EMO (humanaigc.github.io)

Sztuczna inteligencja na podstawie dźwięku animuje portrety a zatem to dźwięk i rozpoznawanie w nim emocji jest podstawą generowania mimiki. Jak w przypadku SORA od OpenAI nie wiemy, na ile bezbłędny jest ten model – ile prób trzeba, żeby otrzymać udaną animację. Brak informacji również o wydajności obliczeniowej modelu. Załóżmy jednak, że to jest produkt gotowy do udostępnienia. Co jego wejście oznaczałoby dla produkcji wideo?

Animowane portrety nie są znaczącym segmentem ani produkcji wideo, ani produkcji filmów. Dowcipne, animowane portrety to kolejny z wielu powodów, dla których będzie mniej miejsc pracy w animacji wideo czy w reklamie. Domyślam się, że jakaś część reklam będzie polegać po prostu na śmiesznym animowaniu jakiegoś obrazu pod muzykę. Zapewne pojawią się animowane awatary w soszjalach. Również tego rodzaju narzędzia pewnie będą integrowane w programach do tworzenia prezentacji.