Tip:
Highlight text to annotate it
X
Tłumaczenie: Beata Wasylkiewicz-Jagoda Korekta: Rysia Wand
Pokażę wam coś.
(Wideo) Dziewczynka: To jest kot siedzący na łóżku.
Chłopiec głaszcze słonia.
To są ludzie idący do samolotu.
Samolot jest duży.
Fei-Fei Li: Tak trzyletnie dziecko
opisuje, co widzi na zdjęciach.
Wielu rzeczy musi się jeszcze nauczyć,
ale w jednej dziedzinie jest już ekspertem:
rozumie, co widzi.
Technicznie nasze społeczeństwo jest zaawansowane bardziej niż kiedykolwiek.
Wysyłamy ludzi na Księżyc, tworzymy telefony, które rozmawiają z nami
i potrafimy sprawić, żeby stacja radiowa, grała tylko naszą ulubioną muzykę.
A jednak nawet najbardziej zaawansowane komputery
ciągle nie mogą sobie poradzić z tym zadaniem.
Dzisiaj chciałabym opowiedzieć
o ostatnich osiągnięciach w dziedzinie widzenia komputerowego,
jednej z najbardziej pionierskich i potencjalnie rewolucyjnych
technologii w informatyce.
Istnieje już prototyp samochodu, który jeździ sam,
ale bez umiejętności rozpoznawania obrazu
nie umie odróżnić
zmiętej papierowej torby, po której można przejechać,
od podobnej wielkości kamienia, który trzeba ominąć.
Istnieją aparaty fotograficzne o bardzo dużej rozdzielczości,
ale nadal nie wiadomo, jak przywrócić wzrok niewidomym.
Drony mogą latać na dużych przestrzeniach,
ale nadal nie istnieje technologia,
która pomogłaby śledzić zmiany w lasach deszczowych.
Kamery przemysłowe są wszędzie,
ale nie potrafią nas ostrzec, jeśli dziecko topi się w basenie.
Zdjęcia i filmy video stały się integralną częścią naszego życia.
Ilość materiału, który powstaje, przekracza możliwości odbiorcze
pojedynczego człowieka, a nawet grupy ludzi.
Podczas TED dokładamy do tego swoją cegiełkę.
Najbardziej zaawansowane oprogramowanie nadal nie umie sobie poradzić
ze zrozumieniem i zarządzaniem tak ogromną ilością danych.
Innymi słowy jako społeczeństwo
jesteśmy niewidomi,
bo nasze najmądrzejsze maszyny wciąż nie widzą.
"Co w tym trudnego?" moglibyście zapytać.
Aparaty potrafią zrobić zdjęcie,
przekształcając światło w dwuwymiarowy szereg liczb,
czyli w piksele.
Ale są to tylko liczby.
Nie niosą ze sobą znaczenia.
Słyszeć, to nie to samo co słuchać,
a robić zdjęcia, to nie to samo co widzieć.
Mówiąc o widzeniu, mam na myśli rozumienie.
Zrealizowanie tego zadania zajęło Matce Naturze
540 milionów lat ciężkiej pracy,
a większość tego wysiłku włożyła
w rozwój części mózgu odpowiedzialnej za przetwarzanie wizualne,
a nie w rozwój oczu.
Widzenie rozpoczyna się w oczach,
ale tak naprawdę odbywa się w mózgu.
Od 15 lat, zaczynając od doktoratu w Caltech,
przez prowadzenie Stanford Vision Lab,
pracowałam z moimi mentorami, współpracownikami i studentami
*** nauczeniem komputerów widzenia.
Pole naszych badań to widzenie komputerowe i systemy uczące się.
Jest to część sztucznej inteligencji.
Chcemy, żeby maszyny widziały tak, jak my,
potrafiły nazwać rzeczy, rozpoznać ludzi, wskazać ich położenie w przestrzeni,
żeby rozumiały relacje, emocje, działania i intencje.
Potrafimy opowiedzieć historię o ludziach, miejscach czy rzeczach
w momencie, kiedy na nie spojrzymy.
Żeby osiągnąć ten cel, trzeba nauczyć komputer widzenia rzeczy,
klocków, z których składa się świat.
Wyobraźcie sobie ten proces uczenia
jako pokazywanie komputerom
zdjęć konkretnych obiektów, na przykład kotów,
i tworzenie modelu na podstawie tych obrazów.
Czy to takie trudne?
W końcu kot to tylko zbiór kształtów i kolorów.
Tak właśnie traktowaliśmy obrazy na początku modelowania obiektowego.
Używając języka matematyki, mówiliśmy algorytmowi komputerowemu,
że kot ma okrągłą głowę, puchate ciało,
szpiczaste uszy i długi ogon,
i to brzmiało całkiem dobrze.
Ale co zrobić z takim kotem?
(Śmiech)
On jest cały poskręcany.
Teraz trzeba by dodać nowy kształt i punkt widzenia do modelu obiektu.
A jeśli koty będą schowane?
Co zrobić z takimi kotami?
Teraz rozumiecie.
Nawet coś tak banalnego, jak zwierzę domowe
może dostarczyć nieskończenie wielu wersji modelowi obiektu,
a to nadal tylko jeden obiekt.
Osiem lat temu
proste spostrzeżenie zmieniło mój sposób myślenia.
Nikt nie mówi dziecku, jak ma widzieć,
szczególnie we wczesnym dzieciństwie.
Dzieci uczą się tego przez doświadczanie świata.
Jeśli potraktować dziecięce oczy
jako parę biologicznych aparatów,
to robią one zdjęcie co 200 milisekund,
co jest średnim czasem ruchu oka.
Zanim skończy 3 lata, dziecko może zobaczyć
setki milionów obrazów realnego świata.
To bardzo dużo przykładów.
Zamiast skupiać się wyłącznie na ulepszaniu algorytmów,
wolałam podać im dane treningowe podobne do tych,
które otrzymuje małe dziecko poznające świat,
zarówno pod względem ilościowym, jak i jakościowym.
Kiedy się na to zdecydowaliśmy,
wiedzieliśmy, że musimy zebrać
dużo więcej zdjęć, niż mieliśmy dotąd,
może nawet tysiące razy więcej.
W związku z tym razem z profesorem Kai Li z uniwersytetu Princeton
w 2007 r. uruchomiliśmy projekt ImageNet.
Na szczęście nie musieliśmy montować aparatu na głowie
i czekać wiele lat.
Skorzystaliśmy z Internetu,
największej skarbnicy zdjęć, jaką człowiek kiedykolwiek stworzył.
Pobraliśmy blisko miliard zdjęć
i użyliśmy crowdsourcingowej platformy Amazon Mechanical Turk,
żeby je opisać.
W szczytowym okresie ImageNet zatrudniał najwięcej pracowników
na Amazon Mechanical Turk:
razem prawie 50 000 osób
ze 167 krajów
pomagało nam posegregować i opisać
prawie miliard zdjęć.
Tak wiele wysiłku kosztowało
uchwycenie zaledwie ułamka zbioru obrazów,
które dziecięcy mózg przyswaja we wczesnych latach rozwoju.
Pomysł użycia dużej ilości danych
do uczenia algorytmu komputerowego, może wydawać się teraz oczywisty,
ale w 2007 roku taki nie był.
Przez dłuższy czas byliśmy w tej podróży sami.
Kilku kolegów radziło mi nawet, żebym zrobiła coś bardziej użytecznego
i ciągle zmagaliśmy się z brakiem funduszy.
Zdarzyło mi się nawet żartować z moimi studentami,
że otworzę znowu pralnię, żeby sfinansować ImageNet.
Jakby nie było, tak właśnie sfinansowałam swoje studia.
Kontynuowaliśmy.
W 2009 roku ImageNet miał już bazę
15 milionów zdjęć
skategoryzowanych w 22 000 klas obiektów i rzeczy
oznaczonych angielskimi słowami.
Zarówno pod względem ilości, jak i jakości
ta baza była unikalna.
Na przykład
mieliśmy ponad 62 000 zdjęć kotów
wszystkich rodzajów, w różnych pozach
kotów domowych i dzikich, z najróżniejszych gatunków.
Byliśmy tak podekscytowani stworzeniem ImageNet,
że chcieliśmy, aby cały naukowy świat mógł z tego projektu korzystać,
więc, podobnie jak TED, udostępniliśmy wszystkie dane
za darmo.
(Brawa)
Mając dane do zasilenia komputerowego mózgu,
byliśmy gotowi wrócić do algorytmów.
Jak się okazało, bogactwo informacji dostarczonych przez ImageNet
doskonale odpowiadało konkretnej klasie algorytmów systemów uczących się,
a konkretnie sieciom neuronowym
zapoczątkowanym przez Kunihiko Fukushimę, Geoffa Hintona oraz Yanna LeCuna
w latach 70. i 80.
Podobnie jak mózg składa się z miliardów połączonych ze sobą komórek nerwowych,
podstawową jednostką operacyjną w sieci neuronowej
jest węzeł przypominający taki neuron.
Pobiera on dane wejściowe z innych węzłów
i przekazuje innym dane wyjściowe.
Co więcej te miliony węzłów
są zorganizowane w hierarchiczne warstwy,
podobnie jak mózg.
W sieci neuronowej, której użyliśmy
były 24 miliony węzłów,
140 milionów parametrów,
i 15 miliardów połączeń.
To jest olbrzymi model.
Zasilona wielką ilością danych z ImageNet,
działająca dzięki nowoczesnym procesorom CPU i GPU
sieć neuronowa rozwinęła się w sposób,
którego nikt się nie spodziewał.
Stała się najlepszą architekturą
do osiągnięcia fascynujących rezultatów w dziedzinie rozpoznawania obrazów.
Ten komputer mówi,
że na obrazku jest kot,
i gdzie ten kot się znajduje.
Oczywiście koty to nie wszystko,
więc tutaj komputer mówi,
że zdjęcie pokazuje chłopca i pluszowego misia;
psa, osobę i mały latawiec w tle;
albo zdjęcie pełne obiektów
takich jak mężczyzna, deskorolka, poręcz, latarnia.
Czasami, jeśli komputer nie jest pewien tego, co widzi,
nauczyliśmy go udzielać
wymijających odpowiedzi,
takich, jakich udzieliłby człowiek.
Ale są też przypadki, kiedy algorytm potrafi *** wyraz precyzyjnie określić,
jakie obiekty znajdują się na zdjęciu,
podając markę, model i rok produkcji samochodu.
Zastosowaliśmy ten algorytm do milionów zdjęć z Google Street View
powstałych w setkach amerykańskich miast
i odkryliśmy coś interesującego.
Po pierwsze potwierdził się popularny pogląd
dotyczący relacji cen samochodów
i dochodu gospodarstw domowych.
Co zaskakujące, okazało się, że ceny samochodów wiążą się też
ze skalą przestępczości w miastach,
czy schematami głosowania.
Ale zaraz, czy to już wszystko?
Czy komputer dorównał właśnie ludzkim możliwościom,
a może nawet je przekroczył?
Nie tak szybko.
Na razie komputer nauczył się widzieć przedmioty.
Można go porównać do małego dziecka, które nauczyło się pierwszych słów.
To niesamowite osiągnięcie,
ale to tylko pierwszy krok.
Wkrótce kolejny milowy krok
i dziecko nauczy się tworzyć zdania.
Dziewczyna z początku prelekcji nie mówi, że na zdjęciu jest kot,
tylko że kot leży na łóżku.
Żeby nauczyć komputer patrzenia na zdjęcia i tworzenia zdań,
połączenie danych i algorytmu systemów uczących się
musi posunąć się dalej.
Teraz komputer musi uczyć się zarówno ze zdjęć,
jak i ze zdań
tworzonych przez ludzi.
Tak, jak mózg łączy wizję i język,
rozwinęliśmy model, który łączy fragmenty rzeczy,
jak elementy wizualne,
z wyrazami i określeniami w zdaniach.
Cztery miesiące temu
w końcu połączyliśmy to wszystko razem
i stworzyliśmy jeden z pierwszych modeli widzenia komputerowego,
który umie tworzyć zdania
na temat pierwszy raz widzianego zdjęcia.
Pokażę wam, co komputer powiedział,
kiedy zobaczył zdjęcia,
które widziała dziewczynka z początku tej prelekcji.
(Wideo) Komputer: Człowiek stoi obok słonia.
Duży samolot na pasie startowym.
FFL: Oczywiście ciągle pracujemy *** poprawieniem naszych algorytmów
i one muszą się jeszcze sporo nauczyć.
(Brawa)
Komputer nadal popełnia błędy.
(Wideo) Komputer: Kot na łóżku zawinięty w koc.
FFL: Jeśli widział zbyt wiele kotów,
wszystko zaczyna mu przypominać kota.
(Wideo) Komputer: Chłopczyk trzyma kij baseballowy.
(Śmiech)
FFL: Jeśli nie widział szczoteczki do zębów,
myli ją z kijem baseballowym.
(Wideo) Komputer: Mężczyzna jadący konno po ulicy obok budynku.
(Śmiech)
FFL: Nie nauczyliśmy jeszcze komputera podstaw sztuki.
(Wideo) Komputer: Zebra na pastwisku.
FFL: Nie umie też doceniać piękna natury,
jak my.
To była długa droga.
Przejście od wieku zero do 3 lat było trudne.
Ale prawdziwym wyzwaniem jest przejście od 3 lat do 13 i dalej.
Pozwólcie, że przypomnę wam zdjęcie chłopca z tortem.
Dotąd uczyliśmy komputer dostrzegać przedmioty,
a nawet opowiedzieć krótką historię na podstawie zdjęcia.
(Wideo) Komputer: Osoba przy stole z tortem
FFL: Ale na tym zdjęciu widać dużo więcej,
niż tylko osobę i tort.
Komputer nie widzi, że ten tort to włoski przysmak,
serwowany tylko na Wielkanoc.
Chłopiec ma na sobie ulubioną koszulkę,
którą dziadek przywiózł mu z Sydney.
Widać, jak bardzo jest w tym momencie szczęśliwy
i co mu właśnie chodzi po głowie.
To mój syn, Leo.
Podczas zmagań z wizualną inteligencją
myślę bez przerwy o Leo
i o przyszłym świecie, w którym będzie żył.
W którym maszyny będą umiały widzieć,
lekarze i pielęgniarki będą mieli dodatkową parę niezmęczonych oczu,
które będą pomagać w leczeniu pacjentów.
Samochody będą bezpieczniejsze.
Roboty, nie tylko ludzie,
będą pomagać w poszukiwaniu rannych na obszarach dotkniętych przez katastrofy.
Odkryjemy nowe gatunki, lepsze materiały
i przekroczymy nieznane dotąd granice dzięki pomocy maszyn.
Powoli dajemy wzrok maszynom.
Najpierw uczymy je widzieć.
Potem one pomogą nam lepiej widzieć.
Po raz pierwszy ludzkie oczy nie będą jedynymi,
które odkrywają świat.
Będziemy używać maszyn nie tylko dla ich inteligencji.
Naszą współpracę z nimi trudno sobie teraz wyobrazić.
To moje zadanie:
dać komputerom wizualną inteligencję
i stworzyć lepszą przyszłość dla Leo i dla świata.
Dziękuję.
(Brawa)