Oszustwa „na wnuczka” z wykorzystaniem sztucznej inteligencji już w Polsce?

Gazeta Wyborcza w zeszłym tygodniu informowała o tym, że w Polsce zaczęły się już oszustwa z wykorzystaniem technologii kopiowania głosu. Do starszych ludzi ktoś zadzwonił i miał puścić przez telefon serię zdań, które brzmiały tak, jakby mówiła je córka tych ludzi. Jeśli tak faktycznie było i zaczęły się w Polsce oszustwa z wykorzystaniem sklonowanych głosów to warto wiedzieć następujące rzeczy:

Klonowanie głosu jest bardzo proste i bardzo tanie. Wchodzisz na stronę, np firmy Eleven Labs, rejestrujesz się, płacisz za abonament (w Eleven L. minimalny to 5$) i na ich stronę wysyłasz plik z głosem, który chcesz sklonować.
Klon głosu powstaje szybko, bo nawet w krócej niż minutę.
Do sklonowania głosu potrzeba minimalnie 1 minuty nagrania. Na innych stronach, innych firm można sklonować za pomocą krótszego nagrania, ale ogólna zasada jest taka, że im dłuższe nagranie, tym lepsza jakość sklonowanego głosu.
– Im dłuższe oraz im bardziej zróżnicowane będzie nagranie, tym lepiej głos będzie potem naśladowany. Sklonowane głosy przeważnie kiepsko naśladują emocje. Szczególnie takie, których nie było w próbce nagranego głosu.
– Po sklonowaniu głosu wpisujemy tekst, który po krótkim przetworzeniu sklonowany głos odczytuje.
– Następnie plik dźwiękowy ściągamy na komputer i mamy sklonowany głos do odtworzenia. Mamy naszego deepfejka dźwiękowego.
Dokładnie w ten sposób sklonowałem sobie głos prezydenta Dudy, głos Wojciecha Jaruzelskiego i głos Karola Wojtyły. Tak można sklonować każdy głos w języku obsługiwanym daną usługę.

Sklonowany głos Andrzeja Dudy – to nie jest prawdziwe nagranie. To jest deepfake.

W ramach oszustwa opisanego przez Wyborczą ludzie usłyszeli przez telefon głos córki, która poinformował, że miała wypadek i potrąciła na pasach kobietę ciąży więc potrzeba pilnie pieniędzy, bo stan potrąconej jest ciężki. Na końcu córka miała powiedzieć, że jest na przesłuchaniu, żeby do niej nie dzwonić, bo to ona się odezwie.

Starsi państwo mimo, że znali schematy oszustw na wnuczka, dali się podejść, bo głos rozpoznali jako głos córki. Ostatecznie uratowało ich to, że zamiast czekać w domu na dalsze instrukcje, z wypłaconymi pieniędzmi pojechali na komisariat na ul. Żytnią, gdzie rzekomo miała przebywać córka.

Oszuści czy oszustki najprawdopodobniej przygotowali sobie kilka nagrań i w trakcie rozmowy po prostu odtwarzali to, co było im potrzebne: przywitanie i krótki opis problemu, pytanie o pieniądze, ponaglenie oraz informacja braku możliwości rozmowy dalej. Jeśli mieli próbki głosu córki tych państwa i mieli od razu pomysł, co ma być „sfejkowane”, to całość zajęła im maksymalnie 5 minut.

Skąd można wziąć próbki czyjegoś głosu? Z Facebooka, Instagrama czy Tik-Toka, bo wideo z mediów społecznościowych wystarczą. Warunek jest taki, że głos musi być niezagłuszony przez muzykę albo inne hałasy a w filmiku nie mówi więcej niż jedna osoba.

Zjawisko oszustw z wykorzystaniem klonowania głosu prawdopodobnie pojawiło się w roku 2021 i najpierw dotyczyło krajów anglojęzycznych. To wtedy zostały opublikowane prace naukowe pokazujące możliwości manipulacji ludzkim głosem – tak wynika z przeglądu repozytorium na Githubie. Jednocześnie w sieci zostały udostępnione programy komputerowe, które pozwalały zmieniać nagrany głos. Jednak pierwsze programy do zmiany głosu nie umiały tego robić w wielu językach. Teraz coraz więcej serwisów uwzględnia już język polski.

Jest jedna metoda obrony przed tymi oszustwami. Osoby szczególnie narażone, czyli takie, które publikują dużo próbek swojego głosu w social-mediach, powinny umówić się z rodziną na hasło lub umówić na pytania sprawdzające. Dzwoni córka, syn lub ktokolwiek znajomy z dramatyczną informacją i potrzebują pieniędzy? Zapytajmy o coś, czego oszuści nie będą wiedzieć. Nazwisko wychowawcy z liceum? Pierwsze wakacje? Kolor pierwszego samochodu?

Ja już miałem już sytuację, w której ktoś przejął konto na Facebooku mojej znajomej i próbował mnie namówić na przelanie drobnej kwoty. Wystarczyło jedno proste pytanie dotyczące znajomości i oszustwo się wydało. Dokładnie na taką czujność musimy się umówić.

Ewentualnie jeszcze, jeśli wrzucamy filmiki z naszym głosem do soszjali, to zawsze warto dodawać muzykę w podkładzie. To chyba też utrudni pracę algorytmom klonowania.

Co nas czeka w przyszłości?
Morphing głosu to technologia zmiany głosu w czasie rzeczywistym. Mówisz przez telefon a specjalny program od razu przekształca ten głos na podobieństwo głosu innej osoby. W tej chwili są takie usługi, ale oferują niewiele możliwości i nie uwzględniają języka polskiego. Mają służyć rozrywce: grasz w grę, w której jesteś robotem albo wiedźminem? Teraz możesz mówić jak robot albo jak wiedźmin. W tej chwili oszustwa w języku polskim z wykorzystaniem morphingu są mało prawdopodobne moim zdaniem. Jednak technologicznie to już jest możliwe.
Takie oszustwa będą jeszcze skuteczniejsze, bo oszuści będą z nami rozmawiać a nie puszczać nagrania sklonowanych głosów. Przed nimi również chroni umówienie się na hasło.

Zobaczcie, posłuchajcie, jak doskonałe są klony głosów.

Sklonowany głos Karola Wojtyły, papieża Jana Pawła II – to nie jest prawdziwe nagranie. To jest deepfake.
Sklonowany głos Wojciecha Jaruzelskiego – to nie jest prawdziwe nagranie. To jest deepfake.