
Klonowanie głosu to technologia, która pozwala imitować ludzki głos lub nawet głos danej osoby poprzez generator mowy. Wpisujemy słowa, które następnie maszyna wypowiada sklonowanym głosem. Klonowany głos może być używany w materiałach audio, ale też wideo. W Ameryce znane są już pierwsze przypadku użycia tej technologii w tzw. oszustwach na wnuczka („Babciu? Miałem wypadek/aresztowali mnie więc wyślij pieniądze”).
Nie znalazłem takich przypadków w Polsce, ale to tylko kwestia czasu. Oszustwa w internecie są międzynarodowe oraz zautomatyzowane więc nie sądzę, żebyśmy długo musieli czekać na ten pierwszy, polski przypadek. Może nawet już był. Jeśli jednak to jeszcze przed nami, to zapewne z tego powodu, że klonowanie głosu w języku polskim nie jest powszechną usługą. Firmy starają się ograniczyć możliwość użycia sklonowanego głosu w szkodliwy sposób.
PlayHT klonuje głos na podstawie próbki minimum 1 godziny nagrania, ale tylko za zgodą osoby, do której głos należy. Oferuje zestaw głosów, które mogą wypowiadać tekst wg życzenia. Zrobiłem szybki przegląd podobnych usług i mam wrażenie, że długość próbki jest nietypowo długa. Na przykład badawczy projekt Microsoftu osiągnął względną skuteczność klonowania głosu dzięki zaledwie 3 sekundowym próbkom. Po polsku usługa PlayHT jest jeszcze niedostępna choć napisali mi, że mają w planach nasz język.
Beyondwords oferuje docelowo odwrotną usługę, bo chodzi o sklonowany głos cyfrowy, który ma zastępować głosy żywych ludzi. Odczytywanie tekstów przez maszynę ma być tańsze i szybsze niż zamawianie nagrań u profesjonalnych lektorów czy lektorek. Zanim jednak zrezygnujecie z usług ludzi zachęcam do sprawdzenia jakości cyfrowych głosów – niektóre brzmią bardzo sztucznie i robotycznie. Do odczytania instrukcji obsługi odkurzacza to może być akceptowalne. Do czytania literatury już nie.
Założona przez Polaków Eleven labs oferuje sztucznie brzmiący głos „Adam”, który mówi po polsku. Jednak można też sklonować w tej usłudze prawdziwy głos, np.: mówiący po polsku. Głosy sklonowane w jednym języku potem mogą mówić w innym języku, w usłudze text-to-speech. Ma też narzędzie pozwalające zestroić czy zbudować nowy, sztuczny głos od zera. Zobaczcie, jak klonowanie głosu pozwoliło zmienić głos aktora Leonardo di Caprio – tu podłożone ma głosy znanych osób z Ameryki (mężczyzn i kobiety).
Od nowa zbudować głos pozwala usługa Coquai.ai – zestaw parametrów głosu (niski, wysoki, natężenie itd.), gdzie również można edytować poszczególne słowa i zdania.
Klonowanie śpiewu jest osobnym zagadnieniem. Z prawnego punktu widzenia nie wolno wykorzystywać do działalności komercyjnej głosu sklonowanego/skopiowanego bez pozwolenia. Możliwości klonowania są coraz większe, co pokazała usługa Respeecher w wideo, gdzie artysta Aloe Blacc zaśpiewał w kilku językach, których nie znał. Oceńcie sami, czy usta śpiewającego poruszają się realistycznie, gdy śpiewa w tych różnych językach.
Liczba usług tego rodzaju czy appek na telefon będzie rosła. Już teraz część aplikacji np. w sklepie Play budzi moją wątpliwość (nie można usunąć próbek swojego głosu, nie wiemy komu jeszcze są udostępniane etc.). Rozpowszechnienie technologii klonowania głosu podważa sens stosowania głosu jako sposobu autentykacji/weryfikacji tożsamości, co jest stosowane w wielu przypadkach.