Jak dokładnie statystycy zgodzili się używać (n-1) jako obiektywnego estymatora wariancji populacji bez symulacji?

67

Wzór na wariancję obliczeniową ma w mianowniku:(n1)

s2=i=1N(xix¯)2n1

Zawsze zastanawiałem się dlaczego. Wydaje się jednak, że czytanie i oglądanie kilku dobrych filmów o tym „dlaczego” jest dobrym obiektywnym oszacowaniem wariancji populacji. Natomiast nie docenia i przecenia wariancję populacji.n ( n - 2 )(n1)n(n2)

Ciekawe, czy w dobie braku komputerów dokładnie dokonano tego wyboru? Czy istnieje faktyczny dowód matematyczny potwierdzający to, czy też ten czysto empiryczny i statystyczny wykonał DUŻO obliczeń, aby wymyślić wówczas „najlepsze wyjaśnienie”?

Jak statystycy wymyślili tę formułę na początku XIX wieku przy pomocy komputerów? Ręczny czy jest w tym coś więcej niż na pierwszy rzut oka?

Doktorat
źródło
13
Zakładam, że chcesz powiedzieć „ bez pomocy komputerów”. Odpowiedź jest - być może nic dziwnego - za pomocą algebry. Wyprowadzenie jest dość proste i w wielu miejscach studenci statystyki często czerpią je jako ćwiczenie / uczą się jako studenci.
Glen_b
Myślę, że to daje całkiem dobre wytłumaczenie: en.wikipedia.org/wiki/Variance#Sample_variance
Verena Haunschmid
Zmodyfikowałem twoją formułę, aby użyć i ponieważ w mianowniku dotyczy wariancji próbki (symbole łacińskie), a nie wariancji populacji (symbole greckie). ˉ x n - 1s2x¯n1
Alexis,

Odpowiedzi:

40

Korekta nosi nazwę korekcji Bessela i ma matematyczny dowód. Osobiście nauczyłem się tego w prosty sposób: użycie jest sposobem na poprawienie błędu (patrz tutaj ).E [ 1n1E[1n1n(xix¯)2]

Możesz także wyjaśnić korektę na podstawie koncepcji stopni swobody, symulacja nie jest absolutnie potrzebna.

mugen
źródło
15
Alternatywna wersja dowodu nr 3 ma piękne intuicyjne wyjaśnienie, które może zrozumieć nawet osoba świecka. Podstawową ideą jest to, że średnia próby nie jest taka sama jak średnia populacji. Twoje obserwacje będą naturalnie bliższe średniej próby niż średniej populacji, a to ostatecznie nie docenia tych wyrażeń za pomocą wyrażeń. Jest to prawdopodobnie oczywiste dla większości ludzi, ale nigdy nie myślałem o „intuicji”, dlaczego do tej pory tendencyjna wariancja próbki jest tendencyjna. Nauczyłem się tylko formalnych dowodów. ( x i - ˉ x ) 2(xiμ)2(xix¯)2
WetlabStudent
2
Istnieje również geometryczne podejście do tego, dlaczego korygować za pomocą n-1 (wyjaśnione bardzo ładnie w Saville i Wood: Metody statystyczne: podejście geometryczne). Krótko mówiąc: próbkę n można uznać za n-wymiarową przestrzeń danych. Wektory punktów próbkowania dodają do obserwowanego wektora, który może zostać rozłożony na wektor modelowy z wymiarem p odpowiadającym parametrowi p i wektorem błędu o wymiarze np. Odpowiadający pitagorejskie rozbicie wektora błędu ma np. Kwadraty, których średnia jest miarą wariancji.
giordano
Dam ci piękny link, który zawiera krótkie wyjaśnienie: en.wikipedia.org/wiki/Bias_of_an_estimator
Christina
Czy możesz wyjaśnić, dlaczego w dowodzie (alternatywa 3) zakładamy, że zarówno prawdziwe, jak i stronnicze wariancje obliczone przy użyciu ? Problem różnych wariancji powstaje, gdy mamy populację (z prawdziwą wariancją) i próbkę (z wariancją stronniczą). Ale jeśli obliczymy wariancję na tych samych danych, a mianowicie , dlaczego mieliby się różnić? Uważamy, że to prawdziwa wariancja obliczona przy użyciu dokładnie takich samych 's, jak stronniczego . Nie mogę się zgodzić z tym dowodem. Proszę o pomoc, czego mi brakuje? x x 1 , x 2 , . . . , x n σ 2 x s 2 stronniczen xx1,x2,...,xnσ2xsbiased2
Turkhan Badałow
56

Większość dowodów, które widziałem, są na tyle proste, że Gauss (jakkolwiek to zrobił) prawdopodobnie stwierdził, że dość łatwo je udowodnić.

Szukałem pochodnej na CV, do której mógłbym cię linkować (istnieje wiele linków do dowodów poza witryną, w tym przynajmniej jedna w odpowiedziach tutaj), ale nie znalazłem jej tutaj w CV w kilka wyszukiwań, więc dla kompletności podam prostą. Biorąc pod uwagę jego prostotę, łatwo jest zobaczyć, jak ludzie zaczęliby używać tak zwanej korekcji Bessela .

To przyjmuje zgodnie z założoną wiedzą i zakłada, że ​​kilka pierwszych podstawowych właściwości wariancji jest znanych.E(X2)=Var(X)+E(X)2

E[i=1n(xix¯)2]=E[i=1nxi22x¯i=1nxi+nx¯2]=E[i=1nxi2nx¯2]=nE[xi2]nE[x¯2]=n(μ2+σ2)n(μ2+σ2/n)=(n1)σ2
Glen_b
źródło
1
która właściwość powoduje zniknięcie terminu ? 2x¯i=1nxi
Ciprian Tomoiagă
3
Nie znika. Czy zauważyłeś, że znak ostatniej kadencji zmienił się?
Glen_b
1
(+1) Niedawno usłyszałem świetny dowód, że osobiście uważam, że jest bardziej intuicyjny. Odchylenie próbki ze współczynnikiem można ponownie wyrazić jako średnią wszystkich różnic kwadratowych między punktami wszystkich par. Zauważ teraz, że pary, w których ten sam punkt wchodzi dwa razy, wszystkie mają wartość zero, a to zniekształca wyrażenie. Rozsądne wydaje się skorygowanie błędu systematycznego poprzez wyłączenie wszystkich tych par z podwójnej sumy i uśrednienie tylko dla pozostałych. Daje to korektę Bessela. 1/n
ameba
1
Nie, nieważne, rozgryzłem to. , więc stosujesz tę samą tożsamość, o której wspomniałeś powyżej, do obu terminów w wierszu 3.V[x¯]=V[x]n
tel.
1
Każda z tych odmian ma ten sam drugi moment. Przechodzimy od mówienia o nich wszystkich do omawiania jednego z nich. x1x2xni
Równie dobrze mogłeś
37

Według Weisstein's World of Mathematics, po raz pierwszy udowodnił to Gauss w 1823 roku. Odniesieniem jest tom 4 Werke Gaussa, który można przeczytać na stronie https://archive.org/details/werkecarlf04gausrich . Odpowiednie strony wydają się mieć 47–49. Wygląda na to, że Gauss zbadał to pytanie i przedstawił dowód. Nie czytam łaciny, ale w tekście jest niemieckie streszczenie. Strony 103-104 wyjaśniają, co zrobił (Edytuj: Dodałem zgrubne tłumaczenie):

Allein da man nicht berechtigt ist, die sichersten Werthe fuer die wahren Werthe selbst zu halten, so ueberzeugt man sich leicht, dass man durch dieses Verfahren allemal den wahrscheinlichsten und mittleren Fehler zu klein finden muss, und daher die gegebenenitenenenenenen Wynik wyszukiwania als sie wirklich besitzen. [Ale ponieważ nie można traktować najbardziej prawdopodobnych wartości tak, jakby były to wartości rzeczywiste, łatwo można się przekonać, że zawsze należy stwierdzić, że najbardziej prawdopodobny błąd i średni błąd są zbyt małe, a zatem podane wyniki mają większą dokładność niż w rzeczywistości.]

z którego wydawałoby się, że dobrze wiadomo, że wariancja próby jest tendencyjnym oszacowaniem wariancji populacji. W artykule stwierdzono, że różnica między nimi jest zwykle ignorowana, ponieważ nie ma znaczenia, czy wielkość próbki jest wystarczająco duża. Potem mówi:

Der Verfasser hat daher diesen Gegenstand eine besondere Untersuchung unterworfen, die zu einem sehr Merkwuerdigen hoechst einfachen Resultate gefuehrt hat. Man braucht nemlich den nach dem angezeigten fahlerhaften Verfahren gefundenen mittleren Fehler, um ihn in die richtigen zu verwandeln, nur mit

πρπ

zu multiplicieren, wo die Anzahl der beobachtungen (liczba obserwacji) und die Anzahl der unbekannten groessen (liczba niewiadomych) bedeutet. [Autor dokonał zatem specjalnych badań tego obiektu, co doprowadziło do bardzo dziwnego i niezwykle prostego wyniku. Mianowicie wystarczy pomnożyć średni błąd znaleziony przez powyższy błędny proces przez (podane wyrażenie), aby zmienić go na właściwy, gdzie to liczba obserwacji, a to liczba nieznanych wielkości.]πρπρ

Jeśli więc rzeczywiście po raz pierwszy znaleziono korektę, wydaje się, że została ona znaleziona przez sprytne obliczenia Gaussa, ale ludzie już wiedzieli, że wymagana jest pewna korekta, więc być może ktoś inny mógł ją wcześniej znaleźć empirycznie . Być może poprzedni autorzy nie chcieli uzyskać dokładnej odpowiedzi, ponieważ i tak pracowali z dość dużymi zestawami danych.

Podsumowanie: ręczne, ale ludzie już wiedzieli, że w mianowniku nie jest całkiem poprawne.n

Flądrarz
źródło
Gdyby ktoś mógł dostarczyć tłumaczenie niemieckiego, byłoby miło. Na przykład nie czytam niemieckiego.
Faheem Mitha
2
Tak, Tłumacz Google nie działa tak dobrze z powodu moich błędów ortograficznych! Dodam przy próbie tłumaczenia; to będzie dobry sposób na ćwiczenie mojego niemieckiego.
Flądrowiec
14

Dla mnie to jedna intuicja

The degree to whichXi varies from X¯+The degree to whichX¯ varies from μ=The degree to which Xi varies from μ.

To jest,

E[(XiX¯)2]+E[(X¯μ)2]=E[(Xiμ)2].

Faktyczne udowodnienie powyższego równania wymaga trochę algebry (algebra ta jest bardzo podobna do powyższej odpowiedzi @ Glen_b). Ale zakładając, że to prawda, możemy zmienić kolejność, aby uzyskać:

E[(XiX¯)2]=E[(Xiμ)2]σ2E[(X¯μ)2]σ2n=n1nσ2.

Dla mnie kolejną intuicją jest to, że użycie zamiast wprowadza uprzedzenie. I to odchylenie jest dokładnie równe .X¯μE[(X¯μ)2]=σ2n

Kenny LJ
źródło
12

Większość odpowiedzi już to szczegółowo wyjaśniło, ale oprócz tych jest jedna prosta ilustracja, która może być pomocna:

Załóżmy, że podano ci a pierwsze trzy liczby to:n=4

8,4,6 , _

Teraz czwarta liczba może być dowolna, ponieważ nie ma żadnych ograniczeń. Rozważmy teraz sytuację, w której otrzymasz i , a jeśli pierwsze trzy liczby to: to czwarta liczba musi wynosić .ˉ x = 6 8 , 4 , 6 6n=4x¯=68,4,66

To znaczy, że jeśli znasz wartości i , to wartość nie ma swobody. Zatem daje nam obiektywny estymator.ˉ x n t h n - 1n1x¯nthn1

Satwik Bhattamishra
źródło