Simulation Providing Evidence That - N - 1 - Gives us unbiased estimate

Oto symulacja stworzona przez użytkownika Khan Academy, te e te ef Zakładam, że wymawia się to "tetf". I ta symulacja pomoże wyrobić w nas intuicję dlaczego dzielimy przez n-1 gdy liczymy naszą wariancję z próby i dlaczego jest ona nieobciążonym estymatorem wariancji populacyjnej. Zatem zaczynamy od tego (i gorąco zachęcam byście osobiście to spróbowali) że możemy skonstruować dystrybucję która mówi "zbuduj populację klikając w niebieski obszar". To tworzymy tutaj sobie populację I tworzymy ją za każdym razem, jak klikam i wówczas zwiększa się rozmiar populacji. No i... ja tutaj tak losowo klikam i to robię i zachęcam, byście sami poszli do Scratchpada, który znajduje się na Khan Academy Computer Science i tam spróbujcie to sami. To jesteśmy tu, tworzymy populację i mogę przestać w pewnej chwili. To mamy populację. Mogę wyrzucić parę losowych punktów stąd. To mamy tu naszą populację i widzieliście, że podczas gdy ja ją tworzyłem to program liczył parametry populacyjne. Liczył średnią populacyjną dla 204.09 oraz standardowe odchylenie populacyjne, które pochodzi od wariancji populacyjnej. Odchylenie standardowe to pierwiastek kwadratowy z wariancji i wynosi 63.8. Również program tworzył wykres wariancji populacyjnej na dole. Jak widzicie, wynosi 63.8, czyli tyle co odchylenie standardowe. Trochę trudno to zobaczyć, ale jest napisane do kwadratu Więc te liczby są do kwadratu podniesione. Toteż 63.8 do kwadratu jest wariancją populacyjną. No i to jest ciekawe same w sobie, ale zbyt dużo nam nie mówi, dlaczego dzielimy przez n-1. I teraz zaczyna się interesująca część. Możemy brać próbki oraz decydować jakiego rozmiaru próbki chcemy obrabiać. Zacznę z bardzo małymi próbkami. Najmniejszymi próbkami, których wzięcie jest sensowne. No więc zacznę z bardzo małymi próbkami i to co zrobimy, co symulacja będzie robić za każdym razem jak wezmę próbkę, to będzie wyliczenie wariancji. Zatem licznik będzie sumą wszystkich moich punktów w próbce minus średnia próbkowa. Potem podniosę do kwadratu. I potem podzielę przez n+a i będzie to uzmienniać względem "a". Podzieli to przez wszystko z zakresu od n+-3, czyli n-3 aż do n+a, i zrobimy to wiele, wiele razy. I w końcu weźmiemy średnią tych wariancji dla każdego "a" i znajdziemy, które daje nam najlepszy estymator. No to wygeneruję jedną próbkę, o tutaj. I widzimy teraz pewnego rodzaju krzywą Gdy mamy wysokie wartości "a" to niedoszacowujemy. Gdy mamy niskie wartości "a", to przeszacowujemy wariancję populacyjną. Ale to było dla jednej próbki, niezbyt miarodajne. To też tylko próbka jednoelementowa. Stwórzmy masę próbek i uśrednijmy je wszystkie. I gdy patrzysz na wiele, wiele próbek, to coś ciekawego zaczyna się dziać. Gdy patrzysz na średnią tych próbek gdy uśredniasz wszystkie te krzywe pochodzące od wszystkich tych próbek to widzisz, że najlepsze oszacowanie jest gdy "a" jest całkiem bliskie "-1". Gdy to jest n+-1 czy to n-1. Gdybyśmy wzięli mniej niż -1 np n-1.05 albo n-1.5 to zaczynamy przeszacowywać wariancję A gdy weźmiemy więcej, czyli jeśli mamy np n+0, czyli dzielimy przez n, albo n+0.05 cokolwiek więcej, to zaczynamy niedoszacowywać wariancję populacyjną. I możecie to zrobić dla próbek o różnych rozmiarach. Spróbuję rozmiar próbki 6. I znowu zaczynamy, klikam. I trzymam przycisk "Generate Sample" (wygerenuj próbkę). I jak tak genereujemy coraz więcej próbek dla każdego z "a", to realnie bierzemy średnią ze wszystkich tych próbek dla wariancji i zależnie od tego, jak ją liczymy zobaczycie jeszcze raz, że nasze najlepsze oszacowanie jest całkiem bliskie do -1. I gdybyście mieli to spróbować dla przykładowo milionów wygenerowanych próbek to zobaczycie, że nasz najlepszy estymator jest gdy a wynosi -1, czyli gdy dzielimy przez n-1. To dziękuję jeszcze raz "tetf" za ten program. Myślę, że to bardzo fajny sposób patrzenia na to dlaczego dzielimy przez n-1