Technologia klonowania głosu zdobywa rynek. To dlatego jedna z czołowych firm rozwijających tę technologię, założona przez dwóch Polaków firma Eleven Labs w mijających dniach osiągnęła wartość wartość miliarda dolarów. Firma ma kwaterę główną w USA. Technologia sztucznej inteligencji generatywnej w odniesieniu do ludzkiego głosu już teraz pozwala podmieniać język w nagraniu, przy zachowaniu głosu i tembru. Pozwala na generowanie nowych, wirtualnych głosów ludzkich. Pozwala też na coraz bardziej powszechne zastępowanie głosów prawdziwych ludzi w mediach, przemyśle rozrywkowym i zastosowaniach codziennych. Jakie to będzie mieć konsekwencje? Kto traci pracę i dlaczego? Zapraszam do przeczytania mojej rozmowy z człowiekiem, którego głos bardzo dobrze znacie. Aleksander Pawlikowski czyta teksty do filmów, reklam, audiobooków.

Alek, przedstaw się proszę.
Alek Pawlikowski, pracuję w mediach 30 lat, w obszarach radio i multimedia oraz jestem zawodowym lektorem. Czytam polskie opracowania zagranicznych filmów, seriali i programów, reklamy oraz książki. Jako wiceprezes Stowarzyszenia Lektorów Rzeczypospolitej Polskiej (SLRP), działam na rzecz umacniania jakości mowy polskiej w przestrzeni medialnej. Można powiedzieć, że SLRP, to jest takie ciało zrzeszające ludzi, będących spadkobiercami prekursorów czytania polskich wersji językowych, którzy wykreowali kulturę oglądania telewizji w Polsce- wszak film z lektorem to unikat w skali światowej. Nasze stowarzyszenie to grupa osób z nieziemskimi głosami, które towarzyszą Polakom w ich domach od dekad jak: Mirosław Utta, Jarosław Łukomski, Maciej Gudowski, Piotr Borowiec, Paweł Bukrewicz, czy śp. Tomasz Knapik oraz wielu innych.
Niedawno w Ameryce odbyły się dwa ważne strajki. Najpierw strajkował związek scenarzystów a potem strajkowali aktorzy i aktorki. Obydwa te strajki miały też postulaty dotyczące sztucznej inteligencji. Oni się obawiali, że sztuczna inteligencja będzie im zabierała pracę. A co mówią polscy lektorzy i lektorki?
Przyglądamy się i jesteśmy czujni. Sytuacja w Ameryce jest ważna, bo tam mają siedziby wielkie firmy, które rządzą przemysłem filmowym. Zaznaczam, że wypowiadam się za siebie, bo nie wszyscy jeszcze dostrzegają te zagrożenia. Jako lektor byłem względnie spokojny, gdy rzecz dotyczyła czata GPT piszącego teksty, choć wraz z jego pojawieniem się zasadność, że maszyna wykorzystuje niezliczoną ilość napisanych przez człowieka tekstów tworząc niby nowe treści, była i jest dyskusyjna.
Większą obawę zaczęły budzić aplikacje przejmujące i wykorzystujące wizerunek człowieka- w tym nowe tech-zabawki pozwalające uzyskać podróbkę głosu ludzkiego. To był dla mnie sygnał ostrzegawczy, że mamy powody do obaw. Łącząc to z doświadczeniem na naszym rynku mediów, ulegającym erozji pauperyzacji zaniżającej jakość i wartość usług lektorskich, poczułem, że “ziemia zaczyna drżeć”, że tysiącletnie dziedzictwo brzmienia mowy polskiej jest zagrożone.
Twórczość to ludzie. Odkąd pamiętam miałem swoich bohaterów, zasilali moją kreatywność i możliwość rozwoju. Sądziłem, że to jest jedyna droga – ulegałem magii jakości i umiejętnemu przywiązywaniu się do szczegółów. Na zawodowej drodze były to chociażby filmowe superprodukcje, czy treści BBC. Ich jakość audio nieustannie wzbudza mój wielki podziw. Zakładałem, że w Polsce- od momentu transformacji w latach 90-tych, też do tego dążymy. Tym bardziej, że rodzime wersje językowe zawsze błyszczały pod względem tłumaczeń i autorskich interpretacji lektorów. Okazało się jednak, że kiedy globalne marki weszły na nasz rynek VOD, to niestety granica pomiędzy jakością, a bylejakością polskich opracowań językowych, z roku na rok zaczęła się zacierać. To przyzwolenie na taniość czy brak regulacji precyzujących wagę jakości mowy polskiej w mediach, nakręciły proces dekulturacji. Dziś coraz częściej włączasz serial i słyszysz, że czytają “przypadkowi” ludzie, którzy powinni zająć się czymś innym. Profesjonalni tłumacze rywalizują z odtwórcami korzystającymi z tłumaczeń maszynowych. Jakość zaczęła spadać na łeb, na szyję. Wytworzyła się przestrzeń, w której niedoskonały AI może porównywać się z człowiekiem, bo teoretycznie ma do czego.
W rozmowie telefonicznej, gdy umawialiśmy się na wywiad wspomniałeś też, że proces zastępowania ludzi technologią nie zaczął się wczoraj i że widzisz to, jako właściciel studia nagraniowego.
Pierwszym z brzegu przykładem niech będą emulatory instrumentów. Te elektronicznie przetworzone brzmienia stosowane są już od prawie trzech dekad i z powodzeniem zastępują fizyczne instrumenty oraz potrzebę umiejętności grania na nich. Dziś emulatory ułatwiają pracę zawodowym muzykom, kompozytorom czy producentom, ale nie zastąpią muzyków na żywo, nie mniej pomagają twórcom w uzyskaniu oryginalnych brzmień w dziełach, jak gitara akustyczna, smyczki, instrumenty dęte czy harfa. Z głosem jest inaczej, nie można go kupić, ani podrobić tak jak skrzypiec; nie można się go nauczyć, a jak już się go ma, to trzeba go latami ćwiczyć i szkolić. To taki instrument i instrumentalista w jednym ciele; głos to narzędzie do artykulacji treści nasycanej emocjonalnością zależną od pory dnia, sytuacji czy otoczenia… Tryliardy kombinacji. Nie da się tej emocjonalności zastąpić, bo nie da się wypowiedzieć tego samego zdania w taki sam sposób.
Twoja organizacja, Stowarzyszenie Lektorów, zabrała publicznie głos w sprawie użycia używania sztucznej inteligencji. Co to za stanowisko? Co Was zmusiło do działania?
Wraz z Pawłem Bukrewiczem (prezesem Stowarzyszenia Lektorów Rzeczypospolitej Polskiej), zabraliśmy głos w sprawie pojawienia się głosów AI na platformie do słuchania audiobooków Storytel. Nagłośniliśmy wątpliwości, że coś tak uduchowionego jak literatura nie może być pozbawiona ludzkiego głosu w jego naturalnym brzmieniu. Tym bardziej, że nie brakuje lektorów na rynku i ma kto czytać, że trwa proces dekulturacji, w której język polski wypierany jest na rzecz języków globalnych. Możliwość wyboru głosu do czytania książki, to naszym zdaniem sztuczne kreowanie potrzeb słuchaczy, za którym niewątpliwie stoi ograniczenie kosztów produkcji, w myśl zasady “ludzie to kupią” i będzie taniej.
Osobiście funkcję wyboru lektora odczytałem jako próbę. Taki sprawdzian tego co można. Typu: „no, to zobaczmy, ile nam wolno”. Nie dostrzegam w tym innowacji, tak jak nie dostrzegam jej w funkcjonalnościach pozwalających na podmianę wokalistów w znanych utworach. W każdym razie storytel już od jakiegoś czasu zapowiadało, że planuje i rozważa kolaborację z AI, aż któregoś dnia patrzę i widzę, że oni to wprowadzili- obok lektorów czytających książki pojawili się ich wirtualni niby koledzy i koleżanki, wraz z wygenerowanymi przez AI wizerunkami niby-lektorów, wyglądających tylko jak ludzie.
Ktoś mógłby powiedzieć, że Wy się boicie, że stracicie jakąś część swojego dochodu. Stracicie część swojej pracy, bo firmy zaczynają włączać sztuczne głosy – głosy sztucznej inteligencji i przestają kupować wasze usługi. Ale czy Waszym zdaniem tu jest jakaś jeszcze inna strata?
Widmo utraty możliwości zarabiania, aż tak bardzo mnie nie boli, ponieważ mając 30 lat pracy twórczej za sobą, co jakiś czas mierzyłem się z nową sytuacją i adaptacją do niej. Moja niepewność wynika z obserwacji, że oto kończy się kultura twórców, a zaczyna kultura odtwórców “rękoma” sztucznej inteligencji; a chciałbym, żeby kolejne pokolenia, mogły kształtować osobowości w oparciu o twórczość ze wszech miar ludzką, wykładaną w języku polskim przez pasjonatów różnych dziedzin. Ja taką możliwość miałem. Zawsze za emocjami, których doświadczałem- czy to słuchając muzyki, chodząc na koncerty, do kina, na wystawy, czy czytając książki, byli prawdziwi ludzie. Ludzie z doświadczeniem i życiorysem, z uchwyconym talentem, a każdy z nich z imieniem i nazwiskiem. Byli prawdziwi. To jest ta wartość, która mnie ukształtowała. I kiedy zaczęliśmy rozmawiać z Pawłem, o tym, że tej wartości już za chwilę nie będzie, bo twórcy jako ogniwo cywilizacji zostaną zastąpieni przez samo udoskonalające się oprogramowania, doszliśmy do wniosku, że to koniec, że gra skończona. Zaczęliśmy o tym mocno dyskutować jeszcze przed wakacjami w 2023 roku. Minęła chwila i proszę, mamy wirtualne głosy, postępującą dekulturację. To dlatego mamy potrzebę misji, trzeba o tym rozmawiać.
W Waszym liście publicznym mówicie też, że Mowa Polska jest częścią naszego dziedzictwa.
Bo tak jest. Te 1000 lat mowy polskiej, przekazywane z pokolenia na pokolenie, to dziedzictwo, które mamy obowiązek zachować i rozwijać dla przyszłych pokoleń, z akcentem na rozwijać- zapewnić przetrwanie w najlepszej możliwej jakości czy formie; AI jako substytucja jest tego przeciwieństwem. Mamy tyle wspaniałych Polskich głosów, po co zastępować je sztuczną inteligencją?
Pozwól, że będę adwokatem diabła i będę bronić sztucznej inteligencji. Przecież sztuczna inteligencja nie zajmie całej polskiej mowy. To będzie jakiś wycinek. Ludzie będą po prostu mieć wybór. Jedni kupią sztuczne głosy a inni kupią głosy żywych ludzi.
Absolutnie się z tym nie zgadzam. Dobra wyższe i dobra niższe. Tym to się skończy. Powstanie bańka dla zamożnych, a reszta dostanie kulturę gorszej jakości. To jest po prostu niesprawiedliwe i krzywdzące, bo dostęp do najwyższych wzorców mowy polskiej powinien być obligatoryjny dla wszystkich.
Posłuchaj, ale ta technologia sztucznej inteligencji, klonowania głosu, ona się bardzo rozwija. Już w tej chwili jest tak, że jeżeli chce sobie sklonować głos, który mówi z określoną emocją, to muszę nagrać wzorzec i wtedy sztuczna inteligencja pozwala sklonować właśnie taki głos. Może więc ten problem polega na czym innym? Może chodzi po prostu o to, że wy powinniście dostać uczciwe umowy? Takie, gdzie dostajecie rzetelne pieniądze za skopiowanie waszych pięknych głosów, świetnie czytających teksty?
Mam obawy i jestem sceptyczny
Czyli Ty byś się nie zgodził podpisać swoim imieniem i nazwiskiem pod takim klonem?
Dostawaliśmy już takie propozycje, ja nie skorzystałem. Mam nadzieję, że sytuacja mnie do tego nie zmusi, i że to nie nastąpi.
Lepiej płatne niż typowa umowa?
Nie zaglądałem do umowy.
No weź, powiedz! Naprawdę nie zajrzałeś?
Nie. Naprawdę, nie zajrzałem; ale tu chciałbym, żeby to dobrze wybrzmiało dlatego wyobraźmy sobie, że Tom Cruise za 30 lat nadal wygrywa casting do superprodukcji. Jaką zatem szansę na rolę, w zestawieniu z nim, będą mieli nienarodzeni dziś aktorzy? Otóż nie chcę uciekać się do sztuczek, które ograbią przyszłe pokolenia z możliwości rozwoju i kreatywności. Skoro mamy wspaniałe narzędzia do tworzenia, twórzmy i nauczajmy następców. Niech to koło się kręci. Wystarczy dobra przestrzeń do współpracy i zrozumienie, że dobry lektor przekłada się na oglądalność i słuchalność.
A może ta sztuczna inteligencja z całymi jej możliwościami pozwoliłaby polskim lektorom i lektorkom pracować za granicą? Już teraz sztuczna inteligencja pozwala mówić bardzo ładnie praktycznie w dowolnym języku. Może stracicie trochę chleba tu, ale może zyskacie gdzieś za granicą?
Nie, nie wierzę w to. Zawsze rozstrzyga Excel. Wygrywa najtańsza opcja. Wirtualne głosy. Już teraz lektorzy na dobrą sprawę konkurują z absolutnymi amatorami z ulicy.
A teraz czy gdy podpisujesz umowę, to masz prawa autorskie i dostajesz tantiemy?
To jest kolejny, bardzo ważny punkt i jako Stowarzyszenie Lektorów Rzeczypospolitej Polskiej zwracamy uwagę na brak regulacji w tej sprawie. Fakt, że praca lektora i jego interpretacje nie są uznawane za twórczość, a np. podkładanie głosu pod postaci już tak, jest nieścisłością, którą trzeba wyjaśnić i uregulować.
Czyli w momencie wejścia sztucznej inteligencji wy jesteście jeszcze mniej chronieni?
Tak. Wierzę, że nowa sytuacja polityczna w Polsce pozwoli rozwiązać ten problem.
Realistycznie, na co liczycie? Na początku przedstawiłeś się jako entuzjasta nowych technologii. Nie wierzysz chyba w zatrzymanie postępu.
Postępu nie da się zatrzymać i nie jestem hamulcowym. Zawsze szukałem rozwiązań trudnych sytuacji, a ta ze sztuczną inteligencją taką sytuacją jest. Wierzę w to, że jesteśmy w stanie doprowadzić do takich regulacji, w których brzmienie mowy polskiej będzie chronione. Skoro oscypki są chronione, to chyba z polską mową też powinno się udać.
Miesiąc temu firma Meta opublikowała wyniki swojego eksperymentu, gdzie sztuczna inteligencja jest w stanie w czasie rzeczywistym, bez zauważalnego opóźnienia tłumaczy z języka na inny język. Zachowując głos, albo zmieniając.
To akurat świetny przykład wykorzystania sztucznej inteligencji. Rozwiązuje problem mitycznej wieży Babel. Ludzie komunikujący się ze sobą bezpośrednio, we wszystkich językach świata, zwiększą zasięg i skalę swoich kreatywnych działań.
Czy sądzisz, że inne firmy z branży kreatywnej i rozrywkowej pójdą śladem serwisów audiobookowych? Koncerny telewizyjne, firmy radiowe albo jakieś inne firmy będą chciały iść tą samą drogą?
Pokusa jest. Puszka Pandory została otwarta. Mamy już w Polsce stację radiową z didżejem, który jest sztuczną inteligencją. Można sobie wyszukać. Jestem absolutnie przekonany o tym, że wszyscy myślą o takich rozwiązaniach. Tylko jeżeli one mają zastąpić w tym przypadku głos lektora – to nie widzę sensu, bo ma to wpływ na obniżenie jakości, a jakość jest jednym z wabików uwagi odbiorcy, który za treści płaci. Tak samo jak nie da się zastąpić zawodowego tłumacza tłumaczeniem maszynowym, ponieważ maszyna nie rozumie kontekstu kulturowego, np. w filmie nie widzi scenki, w której jest dialog. Obecnie pojawiają się już próby maszynowego tłumaczenia, które my lektorzy wyczuwamy natychmiast- wiesz kiedy przeczytałeś 10 tysięcy filmów, to wiesz, że coś tu nie gra. W każdym razie, to jest również efekt pauperyzacji. Excel to presja na coraz to niższe stawki. Jest jeszcze kwestia wpływu na polską gospodarkę i PKB. Gdyby AI, w tych wszystkich programach, filmach książkach czy serialach, zastąpiło lektorów, tłumaczy, reżyserów i dialogistów, to pieniądze przestaną zasilać budżet Państwa, bo odpłyną do jakiegoś “coś tam tech”.
Ponieważ to jest zagraniczna technologia więc zyski będą odpływać do Ameryki albo gdzieś indziej.
W naszym wspólnym interesie jest to, żeby głos lektora przetrwał w jego naturalnym brzmieniu, żeby pomagał w osłuchaniu się z językiem polskim kolejnym pokoleniom. Nie dopuszczam myśli, że kiedyś tam, wzorcem brzmieniowym będzie głos sztucznej inteligencji- głos czytający bajki do poduszki i objaśniający dzieciom rzeczywistość, bo dorośli nie będą potrafili się wysławiać.
Paradoksalnie im głos AI będzie lepszy tym bardziej będzie niebezpieczny. Wszyscy powinniśmy być świadomi niebezpieczeństwa uczenia AI bycia profesjonalnym mówcą. Zatarcie granicy pomiędzy AI, a człowiekiem pozwoli na jeszcze głębszą penetrację umysłów niedozwolonymi treściami czy niebezpieczną propagandą. AI jako pseudo-mówca, lektor czy osoba, to olbrzymie ryzyko szerzenia dezinformacji i fake newsów. Wprowadzając sztuczne głosy do obiegu nie będziemy w stanie rozpoznać, co jest prawdą, a co fikcją. W Polsce jak mało kto znamy skutki propagandy. Taki bezimienny mówca, to jest tak naprawdę zagrożenie, które można porównać do bomby atomowej.
Alek, tak sobie myślę, że jesteście jak kanarki w kopalni. Wasze problemy są ostrzeżeniem dla reszty.
Właśnie! Będę korzystał z tego porównania. Idealnie pasuje.
Dziękuję za rozmowę.
Również dziękuję.

Kanarki były używane w dawnych kopalniach jako element wczesnego ostrzegania przed niebezpieczeństwem – przed podziemnymi gazami. Jeśli w powietrzu pojawiał się bezwonny gaz, to małe zwierzę o szybszym metabolizmie, szybszym oddechu i małej wadze ciała szybciej niż ludzie zatruwało się i traciło przytomność.