Z tego tekstu dowiesz się jak działa, jakie ma zalety i jakie wady technologia kierowania a właściwie programowania samochodu przy mocy języka, głosu albo tekstu. Ma ona służyć do porozumiewania się ze sztuczną inteligencją, w nieodległej przyszłości kierującej niektórymi samochodami. Taka technologia programowania jazdy za pomocą języka jest w już dziś w fazie eksperymentalnej.

Samodzielnie jeżdżące pojazdy autonomiczne obecne są na drogach USA i Azji. W Europie akurat obostrzenia prawne są na tyle spore, że takich aut bez kierowcy nie spotyka się na drogach publicznych. W Ameryce natomiast auta na 4 poziomie autonomiczności jeżdżą już w kilku miastach jako taksówki. Podobnie jest też m.in w Chinach. Problemem jest też zaufanie wobec technologii oraz jej awaryjność i tajemniczość. A gdyby taki samochód mówił nam, co robi i czemu robi? I gdyby można było go uczyć mówiąc do niego?
Brytyjska firma Wayve stworzyła eksperymentalną technologię LINGO-1, która pozwala na komunikowanie się ze sztuczną inteligencją kierującą autonomicznym pojazdem. To połączenie systemów rozpoznawania optycznego, modeli językowych i modeli działania. Mamy więc do czynienia z maszyną, która dzięki kamerom rozpoznaje otoczenie, podejmuje stosowne działania, do opisania swoich decyzji używa słów, ale sam fakt używania przez nią słów ma poprawić jej procesy decyzyjne. Już teraz sprawia, że ludzie rozumieją, co i dlaczego maszyna robi.
Po angielsku nazywa się to Vision-Language-Action Models (VLAMs). Język czy mowa służą też w tej technologii do trenowania systemu kierującego pojazdami i zdaniem Waywe taki trening jest skuteczniejszy. Sztuczna inteligencja uczy się m.in z filmów, gdzie doświadczeni kierowcy i kierowczynie prowadząc swoje samochody opowiadają jednocześnie, jakie decyzje właśnie podejmują i jakie manewry oraz dlaczego wykonują. Ten komentarz oraz wideo oraz inne dane są materiałem, na którym sztuczna inteligencja uczy się. Systemy kierujące w tej technologii uczą się więc od ludzi, ale uczą się m.in na symulatorach używających grafiki znakomitej jakości (nieduża różnica wobec materiału wideo).
Jakie to ma zalety i wady?
Lepiej rozumiemy działanie sztucznej inteligencji. Używając naturalnego języka i wyjaśniając swoje decyzje sztuczna inteligencja w tej technologii unika problemu „czarnej skrzynki” (black box), który jest zagrożeniem dla niektórych odmian sztucznej inteligencji. Zespoły naukowe oraz inżynieryjne tworzą coraz większe i coraz skuteczniejsze sieci neuronowe nie rozumiejąc do końca sposobów działania tych sieci. Większa przejrzystość sztucznej inteligencji jest konieczna i będzie wymagana przez prawodawstwo Unii Europejskiej.
Również pasażerki i pasażerowie będą mogli pytać system prowadzący autem o zamiary i decyzje. Z powodów bezpieczeństwa taka technologia nie przyjmuje poleceń w trakcie jazdy – wyobraźmy sobie kilka jednocześnie mówiących osób, albo wydających sprzeczne polecenia!
Materiał językowy dla sztucznej inteligencji może dawać uzupełnienie mniejszej ilości informacji innego typu. Tak jak to bywa w świecie ludzi – możesz mi pokazać film z bardzo wieloma szczegółami, ale możesz też mi pokazać film z mniejszą liczbą szczegółów a resztę opowiesz.
Język pozwala generalizować a dane językowe z Dużych Modeli Językowych są też bazą wiedzy na temat ludzkich zachowań, sytuacji na drodze i prawa. To sprawia, że system kierujący autonomicznym pojazdem lepiej poradzi w nieprzewidzianych sytuacjach, jeśli wspomagany jest zdolnością używania języka.
A wady?
Język jednocześnie sprawia, że auto czy sytem uczony do jazdy w Wlk. Brytanii nie będzie uczony do jazdy, gdzie indziej. Zapewne proces nauki, treningu i oceny trzeba będzie bardzo uważnie powtarzać. Im więcej różnic językowych między krajami, tym trudniejsze użycie tej technologii.
Duże Modele Językowe, co szczególnie ważne, nie używają kryterium prawdy i faktu. Wszystko dla nich jest słowami i statystyką a zatem konfabulują, czyli odpowiadając na pytania te modele czasem udzielają odpowiedzi niezgodnych z prawdą. Ten problem jest krytyczny i wymaga dalszych prac oraz treningu modeli sztucznej inteligencji, podkreśla firma.
Modele językowe używają mniejszej ilości danych niż modele wideo, które przetwarzają obraz. Jednoczesne przetwarzanie danych przez obydwa elementy systemu, gdzie język w pewnym sensie musi streścić procesy przetwarzania wideo i nadążyć za nimi oraz za decyzjami elementu sterującego, to wymaga jeszcze większej mocy obliczeniowej oraz dalszego doskonalenia algorytmów. Na obecnym etapie LINGO-1 daje wgląd w działanie sztucznej inteligencji. Jeśli w przyszłości ma umożliwić wpływanie na podejmowane decyzje problem prędkości przeliczania i reagowania język-wideo-decyzje będzie jeszcze większy. W tej chwili LINGO-1 ma 60% trafność tłumaczenia i opisywania sytuacji na drodze w porównaniu z ludźmi. Jednak w czasie od sierpnia do września 2023 poprawił swoje wyniki z nieco ponad 20% do prawie 60%.
To kolejne z zastosowań Dużych Modeli Językowych, gdzie używanie języka powinno przełożyć się na lepsze rozumienie sytuacji przez inne systemy sztucznej inteligencji oraz bardziej efektywne działanie. Po angielsku to się nazywa multimodality i coraz więcej przykładów na to, że zsumowane różne umiejętności sztucznej inteligencji tworzą jakość, która nie jest tylko sumą a czymś więcej. Język daje kontekst działań a więc może poprawić ich sens, efektywność.
Na podstawie: https://wayve.ai/thinking/lingo-natural-language-autonomous-driving/