Dzięki sztucznej inteligencji jeden kreatywny człowiek niewielkim kosztem jest w stanie wykonać pracę, którą kiedyś znacznie drożej wykonywałby cały zespół ludzi. Dziś rozmowa z Mattem Subietą, który opowie, jak wykorzystuje technologię sztucznej inteligencji, żeby tworzyć max 90 sekundowe, pół-animowane filmiki z muzyką i lektorem, wrzucane do mediów społecznościowych. W rozmowie znajdziecie linki do ciekawych i przydatnych stron.
Matt z zawodu jest filmowcem i zafascynowały go możliwości, jakie już teraz daje technologia sztucznej inteligencji generatywnej. Bawi się jej możliwościami tworząc po angielsku kanał o tematyce historycznej, nazywający się „Past Frames” <— tu na Instagramie.

Matt, wiem, że jesteś zawodowo aktywny od ponad 20 lat. Pracowałeś za granicą i w Polsce. Opowiedz krótko o tym.
Studiowałem w Australii i tam zacząłem pracę. Potem pracowałem w nowojorskim oddziale firmy Platige Image. W Polsce dla Muzeum II Wojny Światowej stworzyłem 110 filmów krótkometrażowych. Dla CANAL +, Discovery i History Channel wyreżyserowałem kilka seriali dokumentalnych.
Jesteś też panem doktorem?
W Polsko-Japońskiej Szkole Technik Komputerowych zrobiłem doktorat z nowoczesnego opowiadania historycznego.
To bardzo pasuje do tego, czym się zająłeś. Opowiedz o swoim najnowszym projekcie.
Projekt nazywa się po angielsku „Past Frames”. Past to przeszłe, minione. Frames to obrazy lub kadry, czy ramy. Zarówno przy tworzeniu logo jak i nazwy, bardzo pomocne była AI (Artificial Intelligence – po ang. sztuczna inteligencja). To są zdjęcia archiwalne oraz obrazy wygenerowane przez sztuczną inteligencję, które układam w narrację historyczną, podkładam dźwięk i umieszczam na mediach społecznościowych.
Jak od początku użyłeś sztucznej inteligencji?
Logo wypracowałem w generatorze Midjourney. W sumie pewnie stworzyłem ze 100 logotypów, gdzie żaden nie był tym docelowym, ale one dały mi podstawę, którą poprawiłem już w Photoshopie – dały mi inspirację.
Poniżej możemy zobaczyć, jak ewoluował projekt logo i co proponował generator Midjourney.

Nazwę wygenerowałem z pomocą ChatGPT. Wpisałem po ang polecenie brzmiące mniej więcej tak: „daj mi nazwę która wiąże się z filmami, które mówią o przeszłości, ale ma być bardzo krótka i nie ma występować ani jako tytuł filmu na IMDB, ani jako jakaś firma już istniejąca”.
Jak powstają filmiki Past Frames?
Łączę w opowieść autentyczne zdjęcia archiwalne. Te zdjęcia niekiedy ożywiam, animuję za pomocą programów, które też koloryzują i powiększają i polepszają jakość zdjęć oraz czyszczą. Często to są po prostu zdjęcia z domeny publicznej, z Wikimedia Commons. Ale czasem będę też pewnie kupować jakieś unikaty bo to nie jest droga impreza.
Zobaczmy filmik, który stworzyłeś specjalnie z okazji Święta Niepodległości.
Przeszukujesz Internet, żeby znaleźć w publicznej domenie zdjęcia archiwalnych. Co dalej?
Krok pierwszy to patrzę, jakie mam zasoby. Krok drugi, to korzystam z porad i wiedzy znajomych historyków. Pytam też ludzi z różnych krajów, jeśli znają swoją historię Na przykład, teraz pracuję nad rewolucją islamską w Iranie i moim konsultantem jest osoba, której rodzice jej dość brutalnie doświadczyli.
Jak jeszcze korzystasz z technologii AI robiąc „Past Frames”?
Każdy mój film musi mieć 90 sekund maksimum, ale mój odwieczny problem to tzw. “White Canvas”, czyli że zawsze zaczynamy kreować z próżni, na pustej kartce i to jest przerażające. To jest ekscytujące do trzydziestki, bo człowiek chce się sprawdzić. Chce udowodnić coś światu i sobie. Ale po trzydziestce robi się to coraz bardziej żmudne i męczące, a po czterdziestce to już jest naprawdę męczące i frustrujące. Gdyby nie czat GPT, to pewnie bym tracił czas chodząc na spacery i prokrastynował zamiast pracować. A teraz po prostu klikam i przełamuje ten pierwszy strach przed tworzeniem, zapełniam tą początkową próżnię, w której często nie wiadomo od czego zacząć i jest więcej pytań niż rozwiązań. Dorzucę, że „Past Frames” jest po angielsku i tu czat GPT też pomaga, bo jest, moim zdaniem, w tej chwili najlepszym systemem do tłumaczenia z polskiego na angielski. Na przykład, w jednym z moich filmików pojawiają się dialogi ludzi z dziewiętnastego wieku i po prostu wpisuję do czata GPT, żeby dialogi napisał ze słownictwem z tego okresu. Na pewno lingwiści mieli by tu uwagi, ale na moje potrzeby jest to na razie wystarczające. Analogicznie, choć bardziej obrazowo działam w Midjourney. Do mojego obecnego projektu o odzyskaniu przez Polskę niepodległości napisałem prompt:
1920, a man holding a 7-years old girl in his arms, looking at each other, poor apartment, melancholic atmosphere, farewell, photo style from 1920 --ar 16:9 (1920, mężczyzna trzymający na rękach 7-letnią dziewczynkę, patrząc na siebie, biedne mieszkanie, melancholijna atmosfera, pożegnanie, fotografia w stylu tych z 1920)
To zobaczmy, co wyszło z Midjourney po takim poleceniu.

Ale te obrazy w Twoich filmikach poruszają się. Z których stron i usług korzystasz?
Jeśli chodzi o poruszanie zdjęć i wprowadzanie ruchu do obrazów, to tych programów jest kilka i nie ma lepszego i gorszego, zwłaszcza, że wszystkie z dynamicznie rywalizują nowymi rozwiązaniami, walcząc o rynek. Niektórzy używają Leonardo.ai. Można też użyć Moonvalley.ai. Niektórym pasuje bardziej Runway, czy Kaiber, ale do moich rzeczy akurat najbardziej pasuje Pika Labs – poza tym że jest za darmo i ma bardzo szybki response time (czas reakcji), najmniej zniekształca obraz wejściowy. Czyli nie nadaje zbyt silnej stylizacji. Moonvalley ma nieprawdopodobnej jakości ruch i moim zdaniem to powinno niepokoić ludzi, którzy mają studia zajmujące się animacją. Generatora DALL-E nie używam, bo w moim przypadku on nie działa, ponieważ ja mam za dużo brutalnych scen i okazuje się, że wszystko mi cenzuruje… a historia jest brutalna.
Zgadza się, szczególnie jeśli mamy dostęp do DALL-E 3 poprzez aplikacje Microsoftu, to firma cenzuruje wyniki i nie pozwala uzyskać brutalnych treści.
Tu nie chodzi o to, że mam zdjęcia gdzie ktoś podrzyna komuś gardło. Nie chcę takich treści, bo one będą potem cenzurowane na social mediach. Często w swoich filmach mam prompt “bodies lying on the ground, fire, smoke, horror, massacre” (ciała leżące na ziemi, ogień, dym, horror, masakra). I to już nie przejdzie w części generatorów z mocną cenzurą. Tak samo “walka” czy “bitwa”. Jednak i tak najbardziej pasuje mi stylistyka Midjourney, bo tworzy obrazy dużo bardziej nasycone, i mięsiste a DALL-E jest dla mnie zbyt płaski. Ludzie są tam jakby puści w środku, bo nie mają faktury i wygląda jakby to była tylko tekstura na obiekcie 3D. Najlepsze, jeżeli chodzi o realizm, żyły na rękach i włosy na policzkach jest Stable Diffusion w modelu XL. Ja i tak muszę wszystko generować poprzez wirtualne procesory i dyski na Google Colab, bo pracując na Macu, który nie jest dostosowany do samodzielnego przeliczania takich obrazów.
Ten projekt, który rozwijasz jest skrojony wprost pod media społecznościowe, jest w estetyce mediów społecznościowych. Ale też mówisz, że prowadzisz szkolenia w studiach filmowych, jak wykorzystywać sztuczną inteligencję?
Ja nie jestem specjalistą od Internetu. Jestem „boomerem” i dopiero się uczę tych wszystkich algorytmów. Mój serwis jest świeżutki i ma kilka tygodni a ja ciągle radzę się ludzi młodszych ode mnie i pytam, jak to w ogóle ma funkcjonować, żeby zdobywać nowych odbiorców. W Polsce jest jeszcze parę osób, których robią podobne rzeczy.
A jak rozwiązujesz problem audio w języku angielskim? Teraz dzięki AI wszyscy możemy tworzyć w różnych językach. Z czego Ty korzystasz?
HeyGen to serwis, który działa tak, że zaczytujesz zdjęcie czy grafikę awatara i potem albo wrzucasz plik audio, albo wpisujesz tekst i postać na zdjęciu rusza ustami, mruga czy pochyla głowę. To nie jest w 100 procentach wiarygodnie, bo są rozjazdy w lips sync’u. Natomiast też w HeyGen można jednym kliknięciem spowodować, że na własnym wideo nie mówimy po polsku ale po angielsku lub chińsku i to jest kolejny gamechanger, bo z treści lokalnych bardzo łatwo zrobić globalne.
Druga, bardzo znana usługa tego samego typu to Eleven Labs. Również można sklonować albo wykreować ścieżki audio i podmienić język w wideo. Czy będziesz zarabiać na „Past Frames”, czy to jest czyste pionierstwo na tym etapie?
Jest taka opcja, że to się będzie monetyzować jako kanał. Na razie proces tworzenia filmu jest za długi i za rzadko wrzucam, żebym zaczął być promowany przez algorytmy. Powinienem postować 3 razy w tygodniu. Jednak wtedy musiałbym obniżyć bardzo jakość swoich filmów. Nie myślę też o monetyzacji i profesjonalizacji tego, np. na Instagramie także z tego powodu, że to oznaczałoby bardzo dużą pracę i wtedy szybko ja sam się tym szybko znudzę. Film, którego bohaterem był japoński konsul Chiune Siguhara, który na Litwie pomagał ewakuować Żydów z Europy zajął mi równo 2 dni, bo to była dosyć prosta historia, nie wymagająca głębokiego riserczu. 2 dni po 9-10 godzin dziennie. Nie chcę też robić tylko social mediów i ugrzęznąć w samodzielnej produkcji. Myślę nieco szerzej i chciałbym pozyskiwać większe fundusze na większe projekty hybrydowe. Past Frames służy więc też trochę jako showcase możliwości.
Ile Cię to kosztuje?
Miesięcznie na software wydaję do 1000 zł. Mój czas też jakoś wyceniam, więc w sumie ciężko to wyliczać. Na razie czuję, że inwestuję w coś ciekawego. Ta technologia znacznie przyspiesza sprawy. Podam przykład. Poszedłem do swojej sąsiadki na kawę, która urodziła się tuż przed II Wojną Światową. Opowiedziała mi, jak mieszkała w Warszawie przy murze getta. Miała 6 lat. I jak dzieci żydowskie przychodziły przez dziurę w tym getcie. Opowiadała o AK owcach, o tym jak widziała wykonywanie wyroków na kolaborantach. Opowiadała o tym, jak po wojnie jak chodziła do szkoły w gruzach. W czterdziestym szóstym w zburzonej Warszawie zamieszkała w centrum i chodziła do szkoły na ul. Miedzianą. I dzieci jak tak chodziło koło gruzów, to bawiły się w chowanego i w sumie trwało 2 godziny, bo to był najlepszy plac zabaw. No to ja do niej mówię: – „A pani Bogusiu, pojedziemy sobie do centrum? Pani przejdzie razem ze mną tą ulicą”. I poszliśmy na ten spacer, od Politechniki na Miedzianą, ona mi pokazała, gdzie się bawili. Wszystko nagrałem smartphonem, bo do social mediów ta jakoś wystarcza. I przez to bylo to szybkie tanie i naturalne, bez ekipy filmowej, sprzętu i lamp. Wróciłem do domu, poszukałem trochę zdjęć i teraz kolejne obrazki zrobię dzieci bawiących się w ruinach, dzieci idących tymi ulicami. I tak zrobię krótki film. Pani Bogusia od razu go zobaczy. Normalnie składałbym wniosek na produkcję filmu, czekał 2-3 lata, musiał przekonywać. Musiał bym czekać na ocenę z telewizji. Potem pytanie, czy ktoś to w ogóle puści i kto to w ogóle zobaczy. Od kilku lat chodzę z pomysłem na film o mieście Harbin w Chinach, które pod koniec dziewiętnastego wieku założyli Polacy i w kilka lat stał się międzynarodową, tętniącą życiem metropolią. Ciekawe prawda? No a jednak bez skutku, dla wszystkich stacji był to za drogi temat, za trudny, zbyt egzotyczny. Więc zrobiłem go sobie w jeden weekend.
Za tydzień publikuję Harbin a trzy odcinki o pani Bogusi jakoś w grudniu. Czuję, że dzięki AI mogę być wreszcie sprawczy zamiast czekać na decyzje całego łańcucha osób a po kilku mięsiącach usłyszeć “dziękujemy za przesłaną propozycję ale temat nas nie interesuje”. A ja największą frustrację czuję nie dlatego, że nie zrobię filmu, ale dlatego, że nie opowiem historii osoby, która zaraz odejdzie z tego świata. No i tak mi umierali po kolei różni ludzie i nie zobaczyli swoich historii. Teraz już na to nie pozwolę.
Czy Twoim zdaniem sztuczna inteligencja będzie zwalniać ludzi z pracy w przemyśle filmowym?
Już zwalnia. Znam studia animacji w Kanadzie i USA, gdzie już zwolnili 30% osób. Zazwyczaj byli to ludzie na niższych stanowiskach. Był to efekt strajków scenarzystów i aktorów, związanych między innymi z AI. I to nie AI kogoś zwolniła. Zrobili to pracodawcy, z tygodnia na tydzień ludzie i często musieli wracać do swoich krajów, tracić lata wysiłku i wyrzeczeń, czasem kończyć swoje związki. Bezwzględność rynku pracy to dużo większy problem niż AI samo w sobie. Widzę jednocześnie, że od lat firmy oczekują od juniorów coraz większych umiejętności. Kiedyś moi studenci animacji częściej znajdywali tą pierwszą pracę a teraz mają z tym ogromny problem bo pracodawcy oczekują jakości komercyjnej od ludzi w wieku 22 lat. Widziałem to w Stanach 10 lat temu, teraz mamy to w Polsce. I widzę swoich zdolnych studentów pracujących w sklepach z ubraniami. Z drugiej strony widzę wielu ludzi po 40-stce, wypalonych zawodowo latami wymuszonych nadgodzin, którzy zmagają się z depresją. Kto się nimi interesuje? Dlatego AI może tylko lekko przyspieszyć proces bezwzględności rynku, który i tak dział się od wielu lat. Nie zrzucajmy więc odpowiedzialności na AI, bo to nasz ludzki system od zawsze generuje patologie w biznesie kreatywnym.
Matt, dzięki za spotkanie!
Również dziękuję!
Pomyślałem, że warto zobaczyć wideo pokazujące możliwości niektórych usług i stron wymienionych przez Matta. Przeważnie cena miesięcznego dostępu do pełni możliwości tego typu usług to od kilku, od ok 10$ do ok. 50$. Im więcej płacisz, tym więcej i częściej możesz generować wideo. Zobaczcie sami.