Tip:
Highlight text to annotate it
X
W tym filmie chciałbym opowiedzieć o jednej
z najbardziej fundamentalnych i głębokich koncepcji w statystyce
i prawdopodobnie całej matematyce.
Chodzi o centralne twierdzenie graniczne.
Mówi nam o tym, że możemy wystartować z dowolnym
rozkładem, który posiada dobrze zdefiniowaną wartość oczekiwaną i wariancję.
Jeżeli posiada dobrze zdefiniowaną wariancję, to posiada również
dobrze zdefiniowane odchylenie standardowe.
I może to być rozkład ciągły lub dyskretny.
Narysuję dyskretny, ponieważ łatwiej go sobie wyobrazić,
przynajmniej na potrzeby tego filmu.
Załóżmy, że mam dyskretną funkcję określającą
rozkład prawdopodobieństwa.
Będę pilnował, żeby nie przypominała w żaden sposób
rozkładu normalnego, ponieważ chcę pokazać wam
potęgę centralnego twierdzenia granicznego.
Załóżmy, że mamy rozkład.
Załóżmy, że może przyjmować wartości od 1 do 6.
1, 2, 3, 4, 5, 6.
Jest to coś w rodzaju szalonej kostki.
Ma wysokie prawdopodobieństwo wypadnięcia 1,
krzywo narysowałem, poprawię -- mamy bardzo dużą szansę,
uzyskania 1, załóżmy że niemożliwym jest uzyskanie 2,
załóżmy że uzyskanie 3 lub 4 jest całkiem prawdopodobne.
Niemożliwa do uzyskania jest 5.
I załóżmy, że bardzo prawdopodobne jest uzyskanie 6.
To jest moja funkcja gęstości prawdopodobieństwa.
Jeżeli chciałbym zaznaczyć tutaj średnią, rozklad jest symetryczny,
więc średnia znajdowałaby się tutaj.
W połowie.
Tutaj znajdowałaby się moja średnia.
Odchylenie standardowe sięgałoby być może,
tak daleko w jedną i drugą stronę średniej.
To jest moja funkcja będąca rozkładem
gęstości prawdopodobieństwa.
Teraz, to co robię to zamiast tylko pobierać kolejne wartości
tej zmiennej losowej opisanej przez ten rozkład gęstości
prawdopodobieństwa. Będę pobierał kolejne wartości.
Ale będę uśredniał te wartości i później będę
obserwował częstotliwość wartości średnich, które będę uzyskiwał.
I gdy mówię o wartości średniej mam na myśli średnią arytmetyczną.
Zdefiniujmy najpierw parę rzeczy --
załóżmy, że moja próba będzie miała rozmiar, mogę wybrać tutaj dowolną liczbę,
ale powiedzmy, że spróbujemy z próbą wielkości 4.
Oznacza to, że za każdym razem będę wyciągał
4 wartości z tego rozkładu.
Załóżmy, że za pierwszym razem,
gdy wyciągam 4 wartości
uzyskuję 1, kolejną 1,
3 i 6.
Proszę bardzo, oto nasza pierwsza próbka o rozmiarze próby 4.
Rozumiem, że terminologia może zacząć się trochę mieszać,
ponieważ tutaj jest próba składająca się z 4 pojedynczych próbek.
Ale gdy mówimy o średniej z próby i procesie
próbkowania rozkładu o pewnej wartości średniej, o czym opowiemy sobie więcej
w kilku następnych filmach, to normalnie termin
próba tyczy się zbioru wartości pobranych z rozkładu.
A rozmiar próby mówi nam ile wartości
pobraliśmy z naszego rozkładu.
Można się łatwo zaplątać w terminologii,
ponieważ każda z tych wartości może być potrakowana jako jakaś próbka rozkładu.
Wyciągamy 4 wartości z rozkładu.
Mamy próbę wielkości 4.
Chcę teraz uśrednić te wartości.
Średnia pierwszej próbki
o wielkości 4 jest równa?
1 + 1 daje 2
2 + 3 daje 5.
5 + 6 daje 11.
11 podzielone przez 4 daje 2.75.
To jest średnia z naszej pierwszej próby rozmiaru 4.
Stwórzmy kolejną.
Moja kolejna próba wielkości 4.
Powiedzmy, że uzyskałem 3,4,kolejną 3
i na koniec 1.
Po prostu tym razem nie wylosowałem żadnej 6.
Zauważcie, że nie mogę uzyskać ani 2 ani 5.
Jest to niemożliwe w tym rozkładzie.
Szansa uzyskania 2 lub 5 jest równa zero.
Więc nie mogę mieć również i tutaj żadnej 2 i 5.
Dla drugiej próby wielkości 4,
średnia będzie równa 3 + 4 co daje 7,
7 + 3 co daje 10, + 1 daje 11.
11 podzielone przez 4 po raz kolejny daje 2.75.
Pozwólcie, że wezmę jeszcze jedną próbkę, chcę żeby było to jasne,
co tak naprawdę tutaj robimy.
Zrobię jeszcze jedną próbkę -- tak naprawdę powinniśmy powtarzać tą procedurę z miliard razy więcej,
ale pozwólcie że zrobię jeszcze jeden przykład bardziej szczegółowo.
Załóżmy, że moja trzecia próbka wielkości 4,
wyciągnę z rozkładu 4 wartości.
Czyli moja próba będzie złożona z 4 wartości pochodzących
z tej oryginalnej, nieco dziwacznej dystrybucji.
Załóżmy, że uzyskałem 1,1, 6 i 6.
Średnia z mojej trzeciej próbki będzie równa: 1 + 1 daje 2.
2 + 6 daje 8.
8 + 6 daje 14.
14 podzielone przez 4 daje 3.5
Udało mi się obliczyć średnią z każdej z próbek --
czyli dla każdej z moich prób wielkości 4 obliczyłem średnią --
każdą taką średnią próbki rozpiszę na rozkładzie częstości.
I zaskoczy to was w ciągu kilku sekund.
Zapiszę to wszystko na rozkładzie częstotliwości występowania.
W porządku, w mojej pierwszej próbie
średnia próby wynosiła 2.75.
Będę rysował na wykresie częstotliwość występowania poszczególnych średnich,
jakie uzyskam dla każdej z prób.
Za pierwszym razem uzyskałem 2.75.
Czyli zaznaczę tutaj na wykresie.
Wartość pochodzi z tej pierwszej próbki.
W następnej próbce również uzyskałem 2.75.
Więc 2.75 tutaj.
Uzyskaliśmy tą wartość dwukrotnie.
Dorysuję kolejne wystąpienie tutaj.
Następnie uzyskaliśmy 3.5.
Dorysuję tutaj wszystkie możliwe wartości. Mógłbym uzyskać 3,
3.25, 3.5.
Następnie uzyskałem 3.5, więc zaznaczę tutaj.
Będę kontynuował
pobieranie próbek.
Być może pozbieram ich 10 000.
Czyli będę dalej pobierał kolejne próby.
Aż uzbieram ich łącznie 10 000.
Czyli po prostu namnożę tych przykładów.
Jak to zacznie wyglądać z czasem?
Każdy z tych pojedynczych przykładów zaznaczę jako kropkę, inaczej musiałbym oddalić ekran.
Jeżeli przyglądalibyśmy się dalej temu wykresowi, to z czasem,
oczywiście nadal wartości przyjmowane przez kolejne próby będą w tym samym przedziale,
czyli 2.75 może być tutaj.
Czyli pierwsza kropka będzie znajdowała sie tutaj,
druga z kolei kropka będzie znajdowała się tutaj,
wartość z 3.5 będzie znajdowała się tutaj.
Ale ja chcę to powtórzyć 10 000 razy,
czyli będę miał 10 000 kropek.
I powiedzmy, że w miarę pobierania kolejnych próbek,
będziemy na tym wykresie dorysowywali kolejne kropki.
Będziemy uzupełniali częstotliwości występowania poszczególnych średnich.
I będziemy je ciągle dopisywać
na wykresie.
Zauważycie, że w miarę gdy zacznę wybierać coraz więcej
próbek wielkości 4,
zacznie się wyłaniać tutaj kształt
przybliżający krzywą rozkładu normalnego.
Każda z tych kropek reprezentuje pojawienie się konkretnej średniej z kolejnej próbki.
Więc jeżeli zwiększam wysokość tej kolumny,
to znaczy że kolejne losowane przez mnie próby mają średnią wartość 2.75.
Z czasem powstanie nam coś co zacznie
przybliżać rozkład normalny.
I to jest miła rzecz dotycząca centralnego twierdzenia granicznego.
Centralną granicą -- badaną dla --
na pomarańczowo, badaną dla n = 4.
To jest dla wielkości próbki równej 4.
Jeżeli zrobiłbym to samo dla wielkości próbki, powiedzmy 20.
W tym przypadku zamiast brać 4 wartości z pierwotnego,
nieco dziwacznego rozkładu, za każdym razem biorę
20 wartości i je uśredniam,
po czym zapisuję średnią na tym wykresie.
W tym przypadku uzyskamy rozkład, który będzie wyglądał
następująco.
Opowiemy o tym więcej w kolejnych filmach.
Ale jak się okazuje, jeżeli teraz narysuję 10 000 średnich z prób,
uzyskam kształt, który po pierwsze
będzie jeszcze lepiej przybliżał rozkład
normalny.
I zobaczymy w przyszłych filmach,
że będzie miał mniejszą -- zaznaczę to wyraźnie -- będzie
miał taką samą średnią.
To będzie średnia.
Będzie miał taką samą średnią.
Ale będzie miał mniejsze odchylenie standardowe.
Powinienem rysować te punkty od dołu do góry,
ponieważ w ten sposób tworzy się ta krzywa, poprzez dopisywanie kolejnych kropek *** poprzednimi.
Najpierw jedna, później kolejne *** nią.
Ten kształt będzie jednak przybliżał coraz bardziej
rozkład normalny.
W rzeczywistości -- i to jest genialne
w centralnym twierdzeniu granicznym -- w miarę gdy rozmiar próby rośnie coraz bardziej,
możemy nawet powiedzieć, że w miarę jak zbliża się do nieskończoności,
ale nie ma potrzeby zbliżać się zbytnio do nieskończoności
by dojść bardzo blisko do rozkładu normalnego.
Nawet dla próbek wielkości 10 lub 20,
będziemy uzyskiwać coś co będzie bardzo zbliżone do rozkładu normalnego.
W zasadzie podobne na tyle, że gołym okiem
ciężko będzie odróżnić od rozkładu normalnego.
Świetne jest to, że wystartowaliśmy od jakiegoś
szalonego rozkładu, prawda?
Który w żaden sposó nie przypomina rozkładu normalnego.
Ale jeżeli weźmiemy próbę wielkości -- to było dla n = 4 --
ale jeżeli weźmiemy próbę wielkości 10 lub nawet 100,
to znaczy będziemy wybierać po 100 wartości zamiast 4 i je będziemy uśredniać,
i na wykresie będziemy przedstawiać częstość ich występowania.
Następnie weźmiemy kolejną 100 elementową próbkę i wyciągniemy
z niej średnią i dopiszemy do wykresu.
I jeżeli powtórzylibyśmy to wielokrotnie... w zasadzie
jeżeli robilibyśmy to nieskończoną ilość razy --
szczególnie jeżeli mielibyśmy próbę o nieskończonej wielkości --
uzyskalibyśmy idealny rozkład normalny.
Szaleństwo :)
Nie stosuje się to tylko do średniej z próby.
Tutaj akurat bierzemy pod uwagę średnią z próby,
ale równie dobrze moglibyśmy brać pod uwagę zwykłą sumę wartości z próby.
Centralne twierdzenie graniczne nadal pozostawałoby w mocy.
I to właśnie jest superużyteczne w tym twierdzeniu.
Poneiważ w życiu jest cała masa procesów, gdzie
białka zderzają się ze sobą, ludzie robią różne dziwne rzeczy,
ludzie wchodzący między sobą w najdziwniejsze interakcje.
I nie wiemy jakie są rozkłady prawdopodobieństwa,
tych zjawisk czy też procesów.
Ale to o czym mówi nam centralne twierdzenie graniczne,
to jeżeli dodamy do siebie wiele różnych akcji,
zakładając, że są generowane z tego samego rozkładu lub jeżeli
uśrednimy te akcje i będziemy notować na wykresie
częstotliwość występowania poszczególnych średnich to uzyskamy
rozkład normalny.
Dlatego właśnie rozkład normalny tak często
przewija się w statystyce i jest dosyć dobrym przybliżeniem
sumy lub średniej wielu
procesów.
Rozkład normalny.
W następnym filmie pokażę,
że rzeczywistość właśnie w ten sposób się zachowuje.
Że jeżeli zwiększamy rozmiar próby,
zwiększamy nasze n i wyciągamy duże ilości średnich
otrzymamy wykres na któym częstotliwości występowania średnich
będą układać się w rozkład normalny.