How We Teach Computers to Understand Pictures - Fei fei li - Ted talks

Tłumaczenie: Beata Wasylkiewicz-Jagoda Korekta: Rysia Wand Pokażę wam coś. (Wideo) Dziewczynka: To jest kot siedzący na łóżku. Chłopiec głaszcze słonia. To są ludzie idący do samolotu. Samolot jest duży. Fei-Fei Li: Tak trzyletnie dziecko opisuje, co widzi na zdjęciach. Wielu rzeczy musi się jeszcze nauczyć, ale w jednej dziedzinie jest już ekspertem: rozumie, co widzi. Technicznie nasze społeczeństwo jest zaawansowane bardziej niż kiedykolwiek. Wysyłamy ludzi na Księżyc, tworzymy telefony, które rozmawiają z nami i potrafimy sprawić, żeby stacja radiowa, grała tylko naszą ulubioną muzykę. A jednak nawet najbardziej zaawansowane komputery ciągle nie mogą sobie poradzić z tym zadaniem. Dzisiaj chciałabym opowiedzieć o ostatnich osiągnięciach w dziedzinie widzenia komputerowego, jednej z najbardziej pionierskich i potencjalnie rewolucyjnych technologii w informatyce. Istnieje już prototyp samochodu, który jeździ sam, ale bez umiejętności rozpoznawania obrazu nie umie odróżnić zmiętej papierowej torby, po której można przejechać, od podobnej wielkości kamienia, który trzeba ominąć. Istnieją aparaty fotograficzne o bardzo dużej rozdzielczości, ale nadal nie wiadomo, jak przywrócić wzrok niewidomym. Drony mogą latać na dużych przestrzeniach, ale nadal nie istnieje technologia, która pomogłaby śledzić zmiany w lasach deszczowych. Kamery przemysłowe są wszędzie, ale nie potrafią nas ostrzec, jeśli dziecko topi się w basenie. Zdjęcia i filmy video stały się integralną częścią naszego życia. Ilość materiału, który powstaje, przekracza możliwości odbiorcze pojedynczego człowieka, a nawet grupy ludzi. Podczas TED dokładamy do tego swoją cegiełkę. Najbardziej zaawansowane oprogramowanie nadal nie umie sobie poradzić ze zrozumieniem i zarządzaniem tak ogromną ilością danych. Innymi słowy jako społeczeństwo jesteśmy niewidomi, bo nasze najmądrzejsze maszyny wciąż nie widzą. "Co w tym trudnego?" moglibyście zapytać. Aparaty potrafią zrobić zdjęcie, przekształcając światło w dwuwymiarowy szereg liczb, czyli w piksele. Ale są to tylko liczby. Nie niosą ze sobą znaczenia. Słyszeć, to nie to samo co słuchać, a robić zdjęcia, to nie to samo co widzieć. Mówiąc o widzeniu, mam na myśli rozumienie. Zrealizowanie tego zadania zajęło Matce Naturze 540 milionów lat ciężkiej pracy, a większość tego wysiłku włożyła w rozwój części mózgu odpowiedzialnej za przetwarzanie wizualne, a nie w rozwój oczu. Widzenie rozpoczyna się w oczach, ale tak naprawdę odbywa się w mózgu. Od 15 lat, zaczynając od doktoratu w Caltech, przez prowadzenie Stanford Vision Lab, pracowałam z moimi mentorami, współpracownikami i studentami *** nauczeniem komputerów widzenia. Pole naszych badań to widzenie komputerowe i systemy uczące się. Jest to część sztucznej inteligencji. Chcemy, żeby maszyny widziały tak, jak my, potrafiły nazwać rzeczy, rozpoznać ludzi, wskazać ich położenie w przestrzeni, żeby rozumiały relacje, emocje, działania i intencje. Potrafimy opowiedzieć historię o ludziach, miejscach czy rzeczach w momencie, kiedy na nie spojrzymy. Żeby osiągnąć ten cel, trzeba nauczyć komputer widzenia rzeczy, klocków, z których składa się świat. Wyobraźcie sobie ten proces uczenia jako pokazywanie komputerom zdjęć konkretnych obiektów, na przykład kotów, i tworzenie modelu na podstawie tych obrazów. Czy to takie trudne? W końcu kot to tylko zbiór kształtów i kolorów. Tak właśnie traktowaliśmy obrazy na początku modelowania obiektowego. Używając języka matematyki, mówiliśmy algorytmowi komputerowemu, że kot ma okrągłą głowę, puchate ciało, szpiczaste uszy i długi ogon, i to brzmiało całkiem dobrze. Ale co zrobić z takim kotem? (Śmiech) On jest cały poskręcany. Teraz trzeba by dodać nowy kształt i punkt widzenia do modelu obiektu. A jeśli koty będą schowane? Co zrobić z takimi kotami? Teraz rozumiecie. Nawet coś tak banalnego, jak zwierzę domowe może dostarczyć nieskończenie wielu wersji modelowi obiektu, a to nadal tylko jeden obiekt. Osiem lat temu proste spostrzeżenie zmieniło mój sposób myślenia. Nikt nie mówi dziecku, jak ma widzieć, szczególnie we wczesnym dzieciństwie. Dzieci uczą się tego przez doświadczanie świata. Jeśli potraktować dziecięce oczy jako parę biologicznych aparatów, to robią one zdjęcie co 200 milisekund, co jest średnim czasem ruchu oka. Zanim skończy 3 lata, dziecko może zobaczyć setki milionów obrazów realnego świata. To bardzo dużo przykładów. Zamiast skupiać się wyłącznie na ulepszaniu algorytmów, wolałam podać im dane treningowe podobne do tych, które otrzymuje małe dziecko poznające świat, zarówno pod względem ilościowym, jak i jakościowym. Kiedy się na to zdecydowaliśmy, wiedzieliśmy, że musimy zebrać dużo więcej zdjęć, niż mieliśmy dotąd, może nawet tysiące razy więcej. W związku z tym razem z profesorem Kai Li z uniwersytetu Princeton w 2007 r. uruchomiliśmy projekt ImageNet. Na szczęście nie musieliśmy montować aparatu na głowie i czekać wiele lat. Skorzystaliśmy z Internetu, największej skarbnicy zdjęć, jaką człowiek kiedykolwiek stworzył. Pobraliśmy blisko miliard zdjęć i użyliśmy crowdsourcingowej platformy Amazon Mechanical Turk, żeby je opisać. W szczytowym okresie ImageNet zatrudniał najwięcej pracowników na Amazon Mechanical Turk: razem prawie 50 000 osób ze 167 krajów pomagało nam posegregować i opisać prawie miliard zdjęć. Tak wiele wysiłku kosztowało uchwycenie zaledwie ułamka zbioru obrazów, które dziecięcy mózg przyswaja we wczesnych latach rozwoju. Pomysł użycia dużej ilości danych do uczenia algorytmu komputerowego, może wydawać się teraz oczywisty, ale w 2007 roku taki nie był. Przez dłuższy czas byliśmy w tej podróży sami. Kilku kolegów radziło mi nawet, żebym zrobiła coś bardziej użytecznego i ciągle zmagaliśmy się z brakiem funduszy. Zdarzyło mi się nawet żartować z moimi studentami, że otworzę znowu pralnię, żeby sfinansować ImageNet. Jakby nie było, tak właśnie sfinansowałam swoje studia. Kontynuowaliśmy. W 2009 roku ImageNet miał już bazę 15 milionów zdjęć skategoryzowanych w 22 000 klas obiektów i rzeczy oznaczonych angielskimi słowami. Zarówno pod względem ilości, jak i jakości ta baza była unikalna. Na przykład mieliśmy ponad 62 000 zdjęć kotów wszystkich rodzajów, w różnych pozach kotów domowych i dzikich, z najróżniejszych gatunków. Byliśmy tak podekscytowani stworzeniem ImageNet, że chcieliśmy, aby cały naukowy świat mógł z tego projektu korzystać, więc, podobnie jak TED, udostępniliśmy wszystkie dane za darmo. (Brawa) Mając dane do zasilenia komputerowego mózgu, byliśmy gotowi wrócić do algorytmów. Jak się okazało, bogactwo informacji dostarczonych przez ImageNet doskonale odpowiadało konkretnej klasie algorytmów systemów uczących się, a konkretnie sieciom neuronowym zapoczątkowanym przez Kunihiko Fukushimę, Geoffa Hintona oraz Yanna LeCuna w latach 70. i 80. Podobnie jak mózg składa się z miliardów połączonych ze sobą komórek nerwowych, podstawową jednostką operacyjną w sieci neuronowej jest węzeł przypominający taki neuron. Pobiera on dane wejściowe z innych węzłów i przekazuje innym dane wyjściowe. Co więcej te miliony węzłów są zorganizowane w hierarchiczne warstwy, podobnie jak mózg. W sieci neuronowej, której użyliśmy były 24 miliony węzłów, 140 milionów parametrów, i 15 miliardów połączeń. To jest olbrzymi model. Zasilona wielką ilością danych z ImageNet, działająca dzięki nowoczesnym procesorom CPU i GPU sieć neuronowa rozwinęła się w sposób, którego nikt się nie spodziewał. Stała się najlepszą architekturą do osiągnięcia fascynujących rezultatów w dziedzinie rozpoznawania obrazów. Ten komputer mówi, że na obrazku jest kot, i gdzie ten kot się znajduje. Oczywiście koty to nie wszystko, więc tutaj komputer mówi, że zdjęcie pokazuje chłopca i pluszowego misia; psa, osobę i mały latawiec w tle; albo zdjęcie pełne obiektów takich jak mężczyzna, deskorolka, poręcz, latarnia. Czasami, jeśli komputer nie jest pewien tego, co widzi, nauczyliśmy go udzielać wymijających odpowiedzi, takich, jakich udzieliłby człowiek. Ale są też przypadki, kiedy algorytm potrafi *** wyraz precyzyjnie określić, jakie obiekty znajdują się na zdjęciu, podając markę, model i rok produkcji samochodu. Zastosowaliśmy ten algorytm do milionów zdjęć z Google Street View powstałych w setkach amerykańskich miast i odkryliśmy coś interesującego. Po pierwsze potwierdził się popularny pogląd dotyczący relacji cen samochodów i dochodu gospodarstw domowych. Co zaskakujące, okazało się, że ceny samochodów wiążą się też ze skalą przestępczości w miastach, czy schematami głosowania. Ale zaraz, czy to już wszystko? Czy komputer dorównał właśnie ludzkim możliwościom, a może nawet je przekroczył? Nie tak szybko. Na razie komputer nauczył się widzieć przedmioty. Można go porównać do małego dziecka, które nauczyło się pierwszych słów. To niesamowite osiągnięcie, ale to tylko pierwszy krok. Wkrótce kolejny milowy krok i dziecko nauczy się tworzyć zdania. Dziewczyna z początku prelekcji nie mówi, że na zdjęciu jest kot, tylko że kot leży na łóżku. Żeby nauczyć komputer patrzenia na zdjęcia i tworzenia zdań, połączenie danych i algorytmu systemów uczących się musi posunąć się dalej. Teraz komputer musi uczyć się zarówno ze zdjęć, jak i ze zdań tworzonych przez ludzi. Tak, jak mózg łączy wizję i język, rozwinęliśmy model, który łączy fragmenty rzeczy, jak elementy wizualne, z wyrazami i określeniami w zdaniach. Cztery miesiące temu w końcu połączyliśmy to wszystko razem i stworzyliśmy jeden z pierwszych modeli widzenia komputerowego, który umie tworzyć zdania na temat pierwszy raz widzianego zdjęcia. Pokażę wam, co komputer powiedział, kiedy zobaczył zdjęcia, które widziała dziewczynka z początku tej prelekcji. (Wideo) Komputer: Człowiek stoi obok słonia. Duży samolot na pasie startowym. FFL: Oczywiście ciągle pracujemy *** poprawieniem naszych algorytmów i one muszą się jeszcze sporo nauczyć. (Brawa) Komputer nadal popełnia błędy. (Wideo) Komputer: Kot na łóżku zawinięty w koc. FFL: Jeśli widział zbyt wiele kotów, wszystko zaczyna mu przypominać kota. (Wideo) Komputer: Chłopczyk trzyma kij baseballowy. (Śmiech) FFL: Jeśli nie widział szczoteczki do zębów, myli ją z kijem baseballowym. (Wideo) Komputer: Mężczyzna jadący konno po ulicy obok budynku. (Śmiech) FFL: Nie nauczyliśmy jeszcze komputera podstaw sztuki. (Wideo) Komputer: Zebra na pastwisku. FFL: Nie umie też doceniać piękna natury, jak my. To była długa droga. Przejście od wieku zero do 3 lat było trudne. Ale prawdziwym wyzwaniem jest przejście od 3 lat do 13 i dalej. Pozwólcie, że przypomnę wam zdjęcie chłopca z tortem. Dotąd uczyliśmy komputer dostrzegać przedmioty, a nawet opowiedzieć krótką historię na podstawie zdjęcia. (Wideo) Komputer: Osoba przy stole z tortem FFL: Ale na tym zdjęciu widać dużo więcej, niż tylko osobę i tort. Komputer nie widzi, że ten tort to włoski przysmak, serwowany tylko na Wielkanoc. Chłopiec ma na sobie ulubioną koszulkę, którą dziadek przywiózł mu z Sydney. Widać, jak bardzo jest w tym momencie szczęśliwy i co mu właśnie chodzi po głowie. To mój syn, Leo. Podczas zmagań z wizualną inteligencją myślę bez przerwy o Leo i o przyszłym świecie, w którym będzie żył. W którym maszyny będą umiały widzieć, lekarze i pielęgniarki będą mieli dodatkową parę niezmęczonych oczu, które będą pomagać w leczeniu pacjentów. Samochody będą bezpieczniejsze. Roboty, nie tylko ludzie, będą pomagać w poszukiwaniu rannych na obszarach dotkniętych przez katastrofy. Odkryjemy nowe gatunki, lepsze materiały i przekroczymy nieznane dotąd granice dzięki pomocy maszyn. Powoli dajemy wzrok maszynom. Najpierw uczymy je widzieć. Potem one pomogą nam lepiej widzieć. Po raz pierwszy ludzkie oczy nie będą jedynymi, które odkrywają świat. Będziemy używać maszyn nie tylko dla ich inteligencji. Naszą współpracę z nimi trudno sobie teraz wyobrazić. To moje zadanie: dać komputerom wizualną inteligencję i stworzyć lepszą przyszłość dla Leo i dla świata. Dziękuję. (Brawa)