Zespół studencki z uniwersytetu Stanforda stworzył sztuczną inteligencję, która rozpoznaje, gdzie zostało zrobione zdjęcie, nawet jeśli wcześniej to konkretne miejsce nie było przez nią widziane. Praca została opublikowana tu: PIGEON Preprint (arxiv.org) (Pigeon – po ang. gołąb). Kraj na zdjęciu poprawnie rozpoznawany był w około 91% przypadków. Mediana błędów lokalizacji, czyli połowa błędów jest wyżej i połowa niżej, to ok 44 km. Średnia błędów lokalizacji to 251 km. W 40% przypadków oprogramowanie rozpoznawało miejsce z dokładnością do 25 km. System nazwali GOŁĄB (po ang. PIGEON). Typowe zdjęcia, które system analizował mogły wyglądać np. tak:

To typowy kadr drogi w perspektywie Street View. Właśnie na tego typu pięciu tysiącach obrazków sieć neuronowa CLIP uczyła się rozpoznawać miejsca. Warto jednak podkreślić, że na takich zdjęciach jest dość dużo informacji zdradzających, gdzie zdjęcia zostały zrobione: drogę, znaki i oznakowanie, inne pojazdy, tablice, charakterystyczne elementy infrastruktury albo typową dla miejsca roślinność itd. I faktycznie, sztuczna inteligencja nauczyła się „odczytywać” tego typu informacje. Rozświetlone na prawym obrazku miejsca pokazują, które obszary zdjęcia algorytmy analizowały, żeby zlokalizować zdjęcie.
PIGEON oraz jego bardziej rozbudowana wersja PIGEOTTO w największym skrócie działają tak, że najpierw powierzchnia Ziemi dzielona jest na komórki (semantic geocells), które są wybierane tak, by pokrywały się obszarami administracyjnymi (miasta, regiony, obszary geograficzne). To ma spory sens, bo zazwyczaj z powodów historycznych, geograficznych i ekonomicznych takie miejsca mają wspólne cechy.
Na bazie zdjęć – kilka tysięcy lub kilka milionów – sieć neuronowa uczy się zauważać stałe właściwości, zasady rządzące występowaniem pewnych szczegółów na zdjęciu, które należy do danej geo-komórki. Tworzy „embeddingi”, czyli zauważa zależności w ramach zdjęć. Potem uczy się zauważać związek między cechami zdjęcia a geokomórkami. Ponieważ jednocześnie jest przetwarzana informacja o położeniu geokomórki względem innych komórek (np. sąsiadujących) więc system w pewnym sensie namierza na mapie tę geokomórkę, która najlepiej pasuje do rozpoznanych cech zdjęcia. Poniżej przykład – coraz jaśniejsza barwa geokomórek oznacza coraz lepsze dopasowanie do cech obrazu.
Zespół naukowy ze względu na obawy związane z naruszaniem prywatności ludzi nie zdecydował się umieścić całego oprogramowania w sieci. Należy założyć, że kolejne wersje oprogramowania tworzonego wg tej logiki będą coraz doskonalsze i coraz skuteczniej będą wydobywać ze zdjęć informacje, którymi niekoniecznie chcemy się dzielić wrzucając do sieci zdjęcie.
Da się przewidzieć, jakiego typu zdjęcia będą gorzej odczytywane przez ten system i przez kolejne systemy:
- Zdjęcie niedoświetlone i kiepskie technicznie.
- Zdjęcia z rejonów czy miejsc, w których mieszka mało ludzi i mało ludzi odwiedza te miejsca a w związku z tym system miał mało zdjęć do nauki (miasto vs wieś).
- Zdjęcia ściśle prywatne z zamkniętych przestrzeni: wnętrza budynków i innych przestrzeni.
- Zdjęcia pozbawione cech charakterystycznych.
Poniżej przykłady zdjęć, z których system nie umiał odczytać lokalizacji.
Ciekawe, czy tego „gołębia” można aktywnie oszukać a jeśli tak, to jakimi sposobami? Czy np. napisy po angielsku (popularne w bardzo wielu miejscach) również mogą oszukać to oprogramowanie? Czy replika wieży Eiffela albo Statui Wolności oszukałyby ten program? Poniżej zdjęcie 15 metrowej repliki paryskiej wieży Eiffela, która została postawiona na rondzie w polskim Rybniku.
Pomijając względy prawne i naruszanie prywatności osób, wyobrażam sobie, że narzędzia tego rodzaju byłyby bardzo przydatne w pracy:
- marketingowej – masowe profilowanie automatyczne na podstawie zdjęć
- pracy policyjnej – profilowanie osób poszukiwanych, które zostawiają ślad cyfrowy




