Wzór na wariancję obliczeniową ma w mianowniku:
Zawsze zastanawiałem się dlaczego. Wydaje się jednak, że czytanie i oglądanie kilku dobrych filmów o tym „dlaczego” jest dobrym obiektywnym oszacowaniem wariancji populacji. Natomiast nie docenia i przecenia wariancję populacji.n ( n - 2 )
Ciekawe, czy w dobie braku komputerów dokładnie dokonano tego wyboru? Czy istnieje faktyczny dowód matematyczny potwierdzający to, czy też ten czysto empiryczny i statystyczny wykonał DUŻO obliczeń, aby wymyślić wówczas „najlepsze wyjaśnienie”?
Jak statystycy wymyślili tę formułę na początku XIX wieku przy pomocy komputerów? Ręczny czy jest w tym coś więcej niż na pierwszy rzut oka?
variance
unbiased-estimator
proof
history
Doktorat
źródło
źródło
Odpowiedzi:
Korekta nosi nazwę korekcji Bessela i ma matematyczny dowód. Osobiście nauczyłem się tego w prosty sposób: użycie jest sposobem na poprawienie błędu (patrz tutaj ).E [ 1n−1 E[1n∑n1(xi−x¯)2]
Możesz także wyjaśnić korektę na podstawie koncepcji stopni swobody, symulacja nie jest absolutnie potrzebna.
źródło
Większość dowodów, które widziałem, są na tyle proste, że Gauss (jakkolwiek to zrobił) prawdopodobnie stwierdził, że dość łatwo je udowodnić.
Szukałem pochodnej na CV, do której mógłbym cię linkować (istnieje wiele linków do dowodów poza witryną, w tym przynajmniej jedna w odpowiedziach tutaj), ale nie znalazłem jej tutaj w CV w kilka wyszukiwań, więc dla kompletności podam prostą. Biorąc pod uwagę jego prostotę, łatwo jest zobaczyć, jak ludzie zaczęliby używać tak zwanej korekcji Bessela .
To przyjmuje zgodnie z założoną wiedzą i zakłada, że kilka pierwszych podstawowych właściwości wariancji jest znanych.E(X2)=Var(X)+E(X)2
źródło
Według Weisstein's World of Mathematics, po raz pierwszy udowodnił to Gauss w 1823 roku. Odniesieniem jest tom 4 Werke Gaussa, który można przeczytać na stronie https://archive.org/details/werkecarlf04gausrich . Odpowiednie strony wydają się mieć 47–49. Wygląda na to, że Gauss zbadał to pytanie i przedstawił dowód. Nie czytam łaciny, ale w tekście jest niemieckie streszczenie. Strony 103-104 wyjaśniają, co zrobił (Edytuj: Dodałem zgrubne tłumaczenie):
z którego wydawałoby się, że dobrze wiadomo, że wariancja próby jest tendencyjnym oszacowaniem wariancji populacji. W artykule stwierdzono, że różnica między nimi jest zwykle ignorowana, ponieważ nie ma znaczenia, czy wielkość próbki jest wystarczająco duża. Potem mówi:
Jeśli więc rzeczywiście po raz pierwszy znaleziono korektę, wydaje się, że została ona znaleziona przez sprytne obliczenia Gaussa, ale ludzie już wiedzieli, że wymagana jest pewna korekta, więc być może ktoś inny mógł ją wcześniej znaleźć empirycznie . Być może poprzedni autorzy nie chcieli uzyskać dokładnej odpowiedzi, ponieważ i tak pracowali z dość dużymi zestawami danych.
Podsumowanie: ręczne, ale ludzie już wiedzieli, że w mianowniku nie jest całkiem poprawne.n
źródło
Dla mnie to jedna intuicja
To jest,
Faktyczne udowodnienie powyższego równania wymaga trochę algebry (algebra ta jest bardzo podobna do powyższej odpowiedzi @ Glen_b). Ale zakładając, że to prawda, możemy zmienić kolejność, aby uzyskać:
Dla mnie kolejną intuicją jest to, że użycie zamiast wprowadza uprzedzenie. I to odchylenie jest dokładnie równe .X¯ μ E[(X¯−μ)2]=σ2n
źródło
Większość odpowiedzi już to szczegółowo wyjaśniło, ale oprócz tych jest jedna prosta ilustracja, która może być pomocna:
Załóżmy, że podano ci a pierwsze trzy liczby to:n=4
Teraz czwarta liczba może być dowolna, ponieważ nie ma żadnych ograniczeń. Rozważmy teraz sytuację, w której otrzymasz i , a jeśli pierwsze trzy liczby to: to czwarta liczba musi wynosić .ˉ x = 6 8 , 4 , 6 6n=4 x¯=6 8,4,6 6
To znaczy, że jeśli znasz wartości i , to wartość nie ma swobody. Zatem daje nam obiektywny estymator.ˉ x n t h n - 1n−1 x¯ nth n−1
źródło