
Na You Tube ciekawa rzecz: wykład wybitnego specjalisty od sztucznej inteligencji i ocena możliwości tej technologii. Prof. Yann Le Cun wygłosił wykład na amerykańskiej uczelni MIT. Poniżej streszczam niektóre poglądy Le Cuna, tłumaczę kim jest i dlaczego warto go słuchać:
– Modele sztucznej inteligencji obecnie płynnie potrafią komunikować się w danym języku i to sprawia, że błędnie zakładamy, jakoby były inteligentne w szerszym rozumieniu tego słowa. Tymczasem te maszyny nie umieją planować ani nie umieją wnioskować.
– Sztuczna inteligencja „ssie”, jeśli chodzi o uczenie się nowych rzeczy. „Machine learning really sucks”, mówi Le Cun. Zwierzęta i ludzie znacznie przewyższają systemy komputerowe w tym aspekcie.
– Żywym istotom wystarcza kilka godzin obserwacji, by nauczyć się nowej, skomplikowanej czynności.
– Ludzki poziom inteligencji jest dla sztucznej inteligencji poza zasięgiem, dopóki te systemy nie zostaną wyposażone w zmysły dowolnego typu – np. wzrok/wizja.
– Systemy sztucznej inteligencji pod względem struktury i funkcji powinny przypominać mózg, tak by mogły samodzielnie realizować działania.
– Najpopularniejsze systemy sztucznej inteligencji generatywnej, które dziś wydają się maszynami o wspaniałych możliwościach, znikną w ciągu 3-5 lat i zostaną zastąpione lepszymi. Jesteśmy na samym początku procesu.
Kim jest Prof. Yann Le Cun? Jest jednym z „ojców założycieli” tej gałęzi informatyki, która zajmuje się uczeniem maszynowym i sieciami neuronowymi. Dziś pracuje jako główny specjalista ds. sztucznej inteligencji w firmie Meta, czyli odpowiada za sztuczne inteligencje, które za moment będziemy mieli w Facebooku i w Instragramie – jest też wiceprezesem firmy.
Jak wygląda proces uczenia maszyn (sieci neuronowych)? Dostają zdanie, obraz czy wideo częściowo zakryte/zniekształcone i na podstawie posiadanych informacji sieć neuronowa ma przewidzieć, co jest zakryte. To może być tekst, to może być fragment obrazu albo jakaś struktura (np. cząsteczka białkowa). Tekst, mówi Le Cun, jest o tyle wdzięcznym materiałem, że porównując z innymi typami zadań łatwiej się daje przewidzieć, czego brakuje i co powinno zostać „wstawione”. Liczba słów w słowniku jest skończona (a język jest tworem społecznym – moja uwaga, ms). Nigdy nie ma 100% pewności, ale skuteczność odgadywania w przypadku tekstu jest wysoka. Proces nauki tych systemów polega więc na tym, że system przewiduje, co powinno być dalej, jakie słowo i system uczy się porównując swoją propozycję z odsłoniętym potem wyrazem.
W przyszłości sztuczna inteligencja konwersacyjna będzie Open Source (oprogramowanie otwartym), czyli będzie niezastrzeżona patentami oraz otwarta dla modyfikacji oraz dystrybucji. Dlaczego Open Source? Le Cun uważa, że tak jak było z internetem, usługi typu podstawowego – a to będzie taka usługa – będą musiały być Open Source.
Od siebie w tym momencie dodam, żeby nie mylić tego z dostępem do samych sieci neuronowych/komputerowych, które bardzo dużo kosztują i zżerają koszmarne ilości drogiego prądu, bo to jakby mylić sok z wyciskarką do soku. Dalej używając sokowej metafory to receptura na sok będzie powszechnie znana, ale nie każdy będzie go umiał produkować, jakość soku będzie różna, dostęp w miarę powszechny, cena zapewne niewygórowana, konkurencja wśród producentów i dostawców spora.
Współczesne modele językowe działają na zasadzie autoregresywności, czyli wyprodukowany przez nie efekt służy do produkcji na kolejnych etapach. Odgadnięte słowo jest podstawą zgadywania kolejnego. Le Cun uważa, że to jest ważna słabość tych systemów. Ten sposób działania oznacza po prostu, że w miarę wzrastania długości odpowiedzi, rośnie prawdopodobieństwo błędu.
W tej chwili Large Language Models (Duże Modele Językowe) zmyślają, mówią rzeczy nieprawdziwe, toksyczne. Nie umieją planować, wnioskować, nie rozumieją matematyki – trzeba używać dodatków, by przeprowadzać w nich działania matematyczne (np. Wolfram Alpha – moja uwaga, ms). Maszyny potrzebują obserwacji milionów albo nawet miliardów przypadków, żeby nauczyć się czegoś nowego.
Jednym z najważniejszym wyzwań dla rozwoju sztucznej inteligencji jest więc uzupełnienie ważnego braku. Dopóki LLM-y nie będą umiały czynić założeń dotyczących świata – a nie tylko języka – nie będą inteligentniejsze. W momencie pytania LLM będzie czynić założenia dotyczące ludzi, dotyczące może nawet samej osoby zadające pytanie i dotyczące natury pytania (zbieranie informacji poprzez zmysły/końcówki).
Systemy sztucznej inteligencji będą więc bardziej zróżnicowane i bardziej złożone. Le Cun uważa, że teoretyczny system przyszłości w jakiejś mierze będzie przypominał ludzki mózg w tym sensie, że poszczególne części systemu będą miały różne funkcje i będą zawiadywać różnymi etapami przetwarzania informacji oraz aspektami procesu wnioskowania. Funkcje a zatem osobne miejsca związane z potrzebami np. pamięci krótkotrwałej, zarządzania współdziałaniem, wyborem akcji, przewidywania konsekwencji akcji w danym otoczeniu, ocenie kosztu akcji (kara/nagroda).
Ocena kosztów akcji jest ważnym elementem w proponowanym modelu działań. Wg Le Cuna niemożliwe będzie łamanie zabezpieczeń tych modeli językowych jak dzieje się teraz, gdy ludzie tworzą odpowiednio wyreżyserowane rozmowy, by wydobyć z modelu zakazane treści (np. jak zbudować bombę, jak ukraść coś etc.). Bowiem jeśli ocena kosztu akcji będzie nakierowana na minimalizację określonych kosztów czy określonych parametrów, gdzie np. lepsze wyniki mają niższą tzw. toksyczność, to system na poziomie odpowiedzi a być może na poziomach wcześniejszych także, sam od razu eliminuje te treści, które nie odpowiadają kryteriom. Znika możliwość gry w kotka i myszkę, jak to się dzieje teraz, gdy jeśli zadasz pytanie, którego nikt nie przewidział to omijasz blokady pytań.
Mnie jako laikowi wydaje się, że łamanie zabezpieczeń w rozmowie z system o tej architekturze będzie znacznie trudniejsze, ale jednak nie niemożliwe. To będzie wymagało po prostu bardziej stopniowego czy subtelnego wydobywania zakazanych informacji. Skoro to ludzie programują maszyny, to jednak gra będzie między ludźmi, za pośrednictwem maszyny i jej reguł. Wygrana w takiej grze będzie wymagać więcej informacji, np. na temat zabezpieczeń na różnych poziomach.
Jeśli analogia ludzie – komputery stanie się bardziej wyrazista, to mogą zmienić się przyczyny niewłaściwych reakcji systemu, ale same niewłaściwe reakcje nie znikną. U ludzi są w końcu dużym problemem a teoretycznie jesteśmy tu wzorem, zdaje się.
Systemy przyszłości wg Le Cuna powinny umieć jeszcze jedną ważną rzecz i jest nią tworzenie hierarchicznych planów działań (hierarchical planning). Przykładowo: chcę dojechać na lotnisko z domu, to moje planowanie zakłada wstanie z krzesła, ubranie się, zamknięcie drzwi na klucz, wezwanie taksówki, powiedzenie adresu osobie kierującej a po dotarciu do celu wyjście z taksówki. Każdorazowy ruch ciała wymaga koordynacji kilkuset mięśni, sekwencji ruchów. Tak samo mówienie. Nic dziwnego, że pierwsze miesiące życia mali ludzie poświęcają właśnie na naukę wstawania, chodzenia i mówienia. Potem to staje się niewidzialnymi zadaniami, które jednak dla systemów sztucznej inteligencji byłyby osobnymi, olbrzymimi i niepowiązanymi (!) zbiorami problemów.
Przyszłościowe systemy sztucznej inteligencji będą samoczynnie budować sekwencje działań, umożliwiające realizację działania o bardziej generalnej naturze. Jak to będą robić? Dzięki posiadaniu przez nie wiedzy na temat świata, czyli działanie będzie w kontekście otoczenia a skutki działań będą oceniane pod względem ich efektywności. To dzięki posiadanej wiedzy na temat świata 17 letni człowiek w 20 godzin nauki jest w stanie nauczyć się jeździć samochodem a małe dziecko umie w 10 minut nauczyć sprzątać naczynia ze stołu i zmywać. Żaden robot w tej chwili nie ma takiej skuteczności, jeśli nie zostanie od samego początku zaprojektowany i zbudowany do wykonania dokładnie tej czynności.
Ponieważ współczesne systemy tego nie umieją, Le Cun uważa, że autoregresywne LLMy (np. GPT-4) znikną w ciągu 3-5 lat i zostaną zastąpione systemami o strukturze stopniowo spełniającej wymagania wyżej przedstawione.
Mimo zdawałoby się olbrzymiego rozwoju w dziedzinie uczenia maszynowego w dalszym ciągu obowiązuje słynny paradoks Moraveca (1988):
„Stosunkowo łatwo jest zbudować komputery, które rozwiązują testy na inteligencję albo grają w szachy jak dorosły człowiek, ale jednocześnie jest bardzo trudno albo wręcz niemożliwe zbudować takie, które mają umiejętność choćby rocznego dziecka, gdy chodzi percepcję oraz ruchliwość” (tłum.moje).
To, co łatwe jest dla ludzi jest trudne dla AI. To co, jest łatwe dla AI jest trudne dla ludzi.
Więcej w wykładzie prof. Yanna Le Cuna na kanale MIT Department of Physics.