Rewolucja w robotyce

TL;DR: Technologia AI wchodzi do robotyki i fundamentalnie zmienia działanie niektórych rodzajów robotów. Roboty wyposażone w mózg sztucznej inteligencji uczą się na podstawie treningu fizycznego, treningu teoretycznego, oglądają filmiki albo używają wiedzy z internetu. Robotyka sięga po tzw. modele podstawowe (foundation models), czyli sieci neuronowe, które w procesie uczenia nienadzorowanego przetwarzają olbrzymie ilości danych nie etykietowanych. Firma OpenAI inwestuje w norweską firmę robotyczną. Amazon testuje roboty do pracy w magazynie. Toyota uczy roboty prostych czynności – np. czynności kuchennych.

Źródło: midjourney.com

Ciekawe eksperymenty z ubiegłego roku pokazały, że robot nie musi mieć precyzyjnie zaprogramowanych instrukcji działania ani drobiazgowych map otoczenia. Zamiast tego, w pewnym sensie, robot próbuje samodzielnie zrozumieć sytuację oraz używa wiedzy.

W jaki sposób robot DALL-E umie nakryć do stołu choć nigdy przedtem tego nie robił? Tu przydatne okazały się dwa rodzaje sztucznej inteligencji, które mogą wydawać się na pierwszy rzut oka niezwiązane z robotyką. Robot używa słów, żeby nazwać przedmioty. Kiedy je nazwie, wtedy te słowa stają się poleceniem do wygenerowania obrazka.

Kamera nakierowana na talerz i sztućce przekazuje obraz do modelu sztucznej inteligencji, który rozpoznaje i generuje obrazy. Przedmioty na stole zostają rozpoznane i nazwane: talerz, widelec, nóż, łyżka. Słowa te wystarczają jako polecenie wygenerowania obrazu przez model sztucznej inteligencji generatywnej. W kolejnym kroku robot układa przedmioty na podobieństwo obrazka, który został wygenerowany. Obrazki z internetu stały się więc dla robota DALL-E wiedzą, która pozwoliła mu wygenerować instrukcję ułożenia talerza i sztućców.

Cały układ mógł skutecznie zadziałać dzięki rozpoznawaniu obrazu i użyciu słów. Słowa posłużyły do wygenerowania obrazu a ten stał się instrukcją działania. To nie znaczy, że roboty przyszłości jako mózgu będą używać czata GPT-3 albo generatora obrazków DALL-E. To znaczy, że modele podstawowe, czyli duże modele danych nieopisanych, mogą stać się podstawą skutecznego działania maszyn. Trochę tak, jakby zwierzę/człowiek uczyli się poprzez obserwację i naśladowanie.

Głośny był eksperyment zespołu firmy Google, w ramach którego robot RT1 na przykład otrzymał tekstowe polecenie w języku naturalnym: „Wyjmij z szuflady chrupki ryżowe”. I choć robot nigdy nie był w tej konkretnej kuchni, to potrafił odnaleźć szufladę i ją otworzyć oraz wyjąć torebkę. Podstawą skutecznego działania robota był model zbudowany przez sieć neuronową na podstawie obserwacji 130 tysięcy akcji różnych robotów. Upraszczając: robot naoglądał się filmików z innymi robotami i na koniec sam umiał wymyślić, jak działać.

Trzeba zauważyć, że w tych eksperymentach chodziło o względnie proste działania, niewymagające wielu etapów. Jednak nawet tego typu działania mogą być atrakcyjnym celem dla badań i dla inwestujących.

Bardzo ciekawy cel stawia sobie Institute Research Toyota. Wypracowali metodę uczenia robotów a właściwie uczenia sztucznej inteligencji, która bardziej przypomina to, jak uczą się ludzie: nie tylko patrz, ale też naśladuj.

W ten sposób IRT nauczył swoje roboty 60 różnych działań – m.in obierania różnych warzyw czy smażenia naleśników i ich przewracania. Roboty wyposażane są też zmysł dotyku, który potrzebny jest do manipulacji delikatnymi obiektami.

Celem jest tu stworzenie Dużego Modelu Zachowań (Large Behavioral Model), czyli wiedzy, którą potem da się uogólniać na kolejne przypadki, których robota nikt nie uczył. Jest to w pewnym sensie przedszkole dla robotów. Oczywiście, najcenniejsza tu będzie sztuczna inteligencja wypracowana w tym procesie.

IRT chce do końca 2024 mieć opanowanych ponad 1000 działań. Łatwo sobie wyobrazić komercjalizację tego typu badań. Sztuczna inteligencja jest jak energia – może napędzać różne firmy i różne projekty, ale zarabia ten, kto ją produkuje.

Wyścig już trwa a poziom trudności nieustannie spada. Zespół z uniwersytetu Stanforda, za 20 tysięcy dolarów w podobny sposób stworzył robota, który wyciera rozlane wino, myje toaletę, smaży albo ustawia krzesła.

Źródło: Mobile ALOHA (mobile-aloha.github.io)

Każdą czynność trzeba było robotowi pokazywać 50 razy, żeby poziom skuteczności robota wyniósł 90%. Ta technologia nie jest już w zasięgu tylko największych firm.

Dwunożny robot Digit testowany jest w magazynach giganta handlu, firmy Amazon. Digit został wyprodukowany przez amerykańską firmę Agility, której technologia na tyle zainteresowała rynek, że otrzymali potężne zastrzyki funduszy na rozwój. Czy Digit przejdzie testy? To zależy nie tylko od samego robota, ale też od tego, czy jego model pracy po prostu pasuje do systemu organizacji pracy w Amazon. Digit potencjalnie mógłby zastąpić ludzi w przenoszeniu i podnoszeniu paczek oraz pudeł.

Digit ewidentnie nie jest bardzo zręczny ani szybki i ma pracować w magazynie. Natomiast ogólnie ciężko jest oceniać sprawność robotów, bo ta dyscyplina – podobnie jak branża AI, nie wypracowała jeszcze standardów oceny, które byłyby powszechnie stosowane i dawały możliwość łatwego porównania.

Norweska firma 1x rozwijająca m.in projekt robota Eve o humanoidalnym kształcie została niedawno doinwestowana przez firmę OpenAI, czyli twórców czata GPT-4. Celem ma być robot, który najpierw mógłby pracować w magazynach i wykonywać zadania o podobnym stopniu komplikacji.

Na oko sprawność robotów Boston Dynamics wydaje się zdecydowanie większa. Ten słynny filmik pokazuje stan technologii sprzed 2 lat. Dziś jest jeszcze większa. Celem firmy jest dodanie sztucznej inteligencji do tych robotów. Założyciel firmy mówi, że ruchowo robotyka jest znacznie bardziej rozwinięta niż pod względem poznawczym.

Zespół badawczy z Boston Dynamics AI Institute próbuje stworzyć roboty, które na początek będą umiały samodzielnie naprawić proste urządzenia – rowery. W niedawnym wywiadzie dla magazynu Wired założyciel firmy dodał także, że popularnym kierunkiem jest dodawanie umiejętności rozumienia języka do systemów robotycznych. Nie chodzi o to, że wygodnie jest komunikować się z robotami używając zwykłego języka choć to oczywiście też. Chodzi o coś innego.

Duże modele językowe (LLM) dają maszynom większą samodzielność, bo język ludzki, czyli języki naturalne, zawierają mnóstwo informacji dzięki czemu maszyna zaczyna zachowywać się, jakby rozumiała niektóre aspekty sytuacji.

Kolejną metodą uczenia robotów i tworzenia modeli sztucznej inteligencji są tzw. dane syntetyczne. Sztuczna inteligencja może uczyć się nie z rzeczywistości, ale z wirtualnych symulacji, które naśladują świat. Jeśli na przykład nauczy się, jak manipulować przedmiotami w takiej symulacji, potem jest możliwe przeniesienie tej umiejętności do świata fizycznego.

Źródło: Eureka | Human-Level Reward Design via Coding Large Language Models (eureka-research.github.io)

Ta praca wzbudziła wielkie zainteresowanie. Upraszczając: w wirtualnym świecie, wirtualne roboty uczą się same oraz od ludzi, jak na przykład obracać piórem w ręku. Czat GPT-4 pisze instrukcje dla tej wirtualnej, robotycznej ręki, poprawiając jej działanie. Powstał więc samodoskonalący się wirtualny robot (agent).

Zdaniem dr Jima Fana z firmy NVDIA, związek AI z robotyką będzie mieć też wpływ na przemysł gejmingowy. Sztuczna inteligencja będzie ożywiać postaci z gier oraz zapewniać realistyczne animacje. I to właśnie najpierw w grach zobaczymy pierwsze, najbardziej skuteczne roboty a dopiero potem w rzeczywistości.

Na podstawie m.in: Robotics in the Era of Foundation Models – 5 Major Trends in Robotics in 2023