Firma Meta stworzyła i opublikowała sztuczną inteligencję, która w czasie rzeczywistym, z minimalnym opóźnieniem, od razu jest w stanie tłumaczyć na 1 ze 76 znanych jej języków.

Oprogramowanie zmienia dźwięk i obraz więc rozmawiając z kimś przez telefon czy poprzez komunikator wideo będziemy od razu, na żywo mówić w obcym języku. Jednocześnie zachowany zostaje nasz głos oraz jego cechy takie akcent, intonacja i tempo (cechy prozodyczne). Skype? Zoom? Wideorozmowa? Po hindusku? Włosku? Angielsku? Nie ma problemu.
Oznacza to, że jeśli mówimy z naciskiem lub jeśli mówimy szeptem, to takie cechy naszego głosu będzie miał skopiowane nasz głos sklonowany i mówiący w obcym języku. Na żywo! To jest prawie jak magia. Zabawkę na żywo można przetestować (choć nie po polsku!). Tu strona do testowania w językach angielskim, hiszpańskim, francuskim i niemieckim: Seamless Expressive Translation Demo (metademolab.com)
Z tłumaczenia ludzkiego nie rezygnowałbym, jeszcze. Szczególnie w sprawach kluczowych, gdzie precyzja jest bardzo ważna, kontekst trudny, wiedza potrzebna – w takich sytuacjach sztuczna inteligencja nie zastąpi tłumaczenia ludzkiego. Jakie ograniczenia ma ta technologia?
- Zachowanie niuansów mowy: Chociaż modele świetnie radzą sobie z zachowaniem stylu głosu i prozodii mówiącej osoby, uchwycenie każdego niuansu ludzkiej mowy pozostaje wyzwaniem. Elementy takie jak sarkazm, subtelne emocjonalne wskazówki czy kontekst kulturowy mogą być trudne do zinterpretowania i dokładnego odtworzenia przez sztuczną inteligencję.
- Wyzwania tłumaczenia w czasie rzeczywistym: Chociaż model SeamlessStreaming daje małe opóźnienie, zapewnienie konsekwentnie dokładnego i płynnego tłumaczenia w czasie rzeczywistym we wszystkich językach i dialektach jest skomplikowane. Czynniki takie jak szumy w tle, jasność mowy i różne akcenty mogą wpływać na jakość tłumaczenia.
- Pokrycie językowe i jakość: Chociaż modele obejmują prawie 100 języków, jakość tłumaczenia może się różnić, szczególnie dla języków z mniejszymi zasobami. Zapewnienie równego poziomu wydajności we wszystkich językach, w tym tych mniej powszechnie używanych, jest znaczącym wyzwaniem. W przypadku produktów amerykańskich język angielski jest podstawowy a pozostałe są dodatkiem.
- Wrażliwość kontekstowa i kulturowa: Zrozumienie i dokładne tłumaczenie treści specyficznych dla kontekstu i wrażliwych kulturowo jest ciągłym wyzwaniem. Obejmuje to wyrażenia idiomatyczne, dialekty regionalne i odniesienia kulturowe. Z góralskiego na góralski nie przetłumaczy.
- Stronniczość: Jak w przypadku każdego systemu sztucznej inteligencji, istnieje ryzyko stronniczości w danych używanych do szkolenia. Chodzi o to, że jeśli podstawowym językiem tego modelu jest angielski, to jednak perspektywa jest z tego języka.
- Ograniczenia techniczne: Złożoność algorytmów i potrzeba znacznych zasobów obliczeniowych mogą być ograniczeniem, szczególnie przy użyciu na szeroką skalę.
Przyszłe prace w tej dziedzinie prawdopodobnie skupią się na zwiększaniu dokładności i ekspresji tłumaczeń, rozszerzaniu pokrycia językowego, poprawie wydajności w czasie rzeczywistym oraz na rozwiązywaniu problemów związanych z etyką i stronniczością. Ponadto kluczowe będzie uczynienie technologii bardziej dostępną i przyjazną dla użytkownika, co będzie miało kluczowe znaczenie dla jej szerszego przyjęcia.