Ty mówisz a sztuczna inteligencja tłumaczy od razu

Firma Meta stworzyła i opublikowała sztuczną inteligencję, która w czasie rzeczywistym, z minimalnym opóźnieniem, od razu jest w stanie tłumaczyć na 1 ze 76 znanych jej języków.

Wieża Babel – obraz Pietera Breugla starszego (1563). Ludzkość wg Biblii budowała wieżę do nieba a wtedy Jahwe pomieszał języki i ludzie nie mogli się już dogadać. Źródło: commons.wikipedia.org/Google Art Project

Oprogramowanie zmienia dźwięk i obraz więc rozmawiając z kimś przez telefon czy poprzez komunikator wideo będziemy od razu, na żywo mówić w obcym języku. Jednocześnie zachowany zostaje nasz głos oraz jego cechy takie akcent, intonacja i tempo (cechy prozodyczne). Skype? Zoom? Wideorozmowa? Po hindusku? Włosku? Angielsku? Nie ma problemu.

Oznacza to, że jeśli mówimy z naciskiem lub jeśli mówimy szeptem, to takie cechy naszego głosu będzie miał skopiowane nasz głos sklonowany i mówiący w obcym języku. Na żywo! To jest prawie jak magia. Zabawkę na żywo można przetestować (choć nie po polsku!). Tu strona do testowania w językach angielskim, hiszpańskim, francuskim i niemieckim: Seamless Expressive Translation Demo (metademolab.com)

Z tłumaczenia ludzkiego nie rezygnowałbym, jeszcze. Szczególnie w sprawach kluczowych, gdzie precyzja jest bardzo ważna, kontekst trudny, wiedza potrzebna – w takich sytuacjach sztuczna inteligencja nie zastąpi tłumaczenia ludzkiego. Jakie ograniczenia ma ta technologia?

  1. Zachowanie niuansów mowy: Chociaż modele świetnie radzą sobie z zachowaniem stylu głosu i prozodii mówiącej osoby, uchwycenie każdego niuansu ludzkiej mowy pozostaje wyzwaniem. Elementy takie jak sarkazm, subtelne emocjonalne wskazówki czy kontekst kulturowy mogą być trudne do zinterpretowania i dokładnego odtworzenia przez sztuczną inteligencję.
  2. Wyzwania tłumaczenia w czasie rzeczywistym: Chociaż model SeamlessStreaming daje małe opóźnienie, zapewnienie konsekwentnie dokładnego i płynnego tłumaczenia w czasie rzeczywistym we wszystkich językach i dialektach jest skomplikowane. Czynniki takie jak szumy w tle, jasność mowy i różne akcenty mogą wpływać na jakość tłumaczenia.
  3. Pokrycie językowe i jakość: Chociaż modele obejmują prawie 100 języków, jakość tłumaczenia może się różnić, szczególnie dla języków z mniejszymi zasobami. Zapewnienie równego poziomu wydajności we wszystkich językach, w tym tych mniej powszechnie używanych, jest znaczącym wyzwaniem. W przypadku produktów amerykańskich język angielski jest podstawowy a pozostałe są dodatkiem.
  4. Wrażliwość kontekstowa i kulturowa: Zrozumienie i dokładne tłumaczenie treści specyficznych dla kontekstu i wrażliwych kulturowo jest ciągłym wyzwaniem. Obejmuje to wyrażenia idiomatyczne, dialekty regionalne i odniesienia kulturowe. Z góralskiego na góralski nie przetłumaczy.
  5. Stronniczość: Jak w przypadku każdego systemu sztucznej inteligencji, istnieje ryzyko stronniczości w danych używanych do szkolenia. Chodzi o to, że jeśli podstawowym językiem tego modelu jest angielski, to jednak perspektywa jest z tego języka.
  6. Ograniczenia techniczne: Złożoność algorytmów i potrzeba znacznych zasobów obliczeniowych mogą być ograniczeniem, szczególnie przy użyciu na szeroką skalę.

Przyszłe prace w tej dziedzinie prawdopodobnie skupią się na zwiększaniu dokładności i ekspresji tłumaczeń, rozszerzaniu pokrycia językowego, poprawie wydajności w czasie rzeczywistym oraz na rozwiązywaniu problemów związanych z etyką i stronniczością. Ponadto kluczowe będzie uczynienie technologii bardziej dostępną i przyjazną dla użytkownika, co będzie miało kluczowe znaczenie dla jej szerszego przyjęcia.