W testach , jaka jest podstawa zastosowania pierwiastka kwadratowego z oczekiwanych zliczeń jako odchyleń standardowych (tj. Oczekiwanych zliczeń jako wariancji) każdej z rozkładów normalnych? Jedyne, co mogłem znaleźć, omawiając to w ogóle, to http://www.physics.csbsju.edu/stats/chi-square.html , i tylko wspomina o rozkładach Poissona.
Jako prostą ilustrację mojego zamieszania, co gdybyśmy testowali, czy dwa procesy są znacząco różne, jeden, który generuje 500 As i 500 Bs z bardzo małą wariancją, a drugi, który generuje 550 As i 450 Bs z bardzo małą wariancją (rzadko generującą 551 As i 449 Bs)? Czy ta wariancja nie jest wyraźnie nie tylko oczekiwaną wartością?
(Nie jestem statystykiem, więc naprawdę szukam odpowiedzi dostępnej dla niespecjalistów).
Odpowiedzi:
Ogólna forma wielu statystyk testowych to
W przypadku zmiennej normalnej błąd standardowy opiera się na znanej wariancji populacji (statystyki Z) lub na oszacowaniu z próby (statystyki T). W przypadku dwumianu błąd standardowy opiera się na proporcji (hipotetyczna proporcja dla testów).
W tabeli awaryjnej liczbę w każdej komórce można traktować jako pochodzącą z rozkładu Poissona ze średnią równą wartości oczekiwanej (poniżej wartości zerowej). Wariancja rozkładu Poissona jest równa średniej, dlatego też do obliczenia błędu standardowego używamy również wartości oczekiwanej. Widziałem statystykę, która używa obserwowanego zamiast tego, ale ma mniej teoretycznego uzasadnienia i nie jest tak zbieżna z .χ2
źródło
Zajmijmy się najprostszym przypadkiem, aby zapewnić jak najwięcej intuicji. Niech będzie próbką iid z rozkładu dyskretnego z k wyników. Niech π 1 , … , π k będą prawdopodobieństwami każdego konkretnego wyniku. Interesuje nas (asymptotyczny) rozkład statystyki chi-kwadrat X 2 = k ∑ i = 1 ( S i - n π i ) 2X1,X2,…,Xn k π1,…,πk
Tutaj n π i jest oczekiwaną liczbą zliczeń i- tego wyniku.
Sugestywna heurystyka
Zdefiniuj , tak żeX2=∑iU 2 i =‖U‖ 2 2 gdzieU=(U1,…,Uk).Ui=(Si−nπi)/nπi−−−√ X2=∑iU2i=∥U∥22 U=(U1,…,Uk)
Ponieważ jest B i n ( n , π i ) , to według Twierdzenia Granicy Centralnej , T i = U iSi Bin(n,πi)
Stąd też ma to, U i d → N ( 0 , 1 - π I ) .
Teraz, jeśli były (asymptotycznie) niezależne (które nie są), to możemy twierdzić, że Σ i T 2 i było asymptotycznie χ 2 k dystrybuowane. Należy jednak zauważyć, że T k jest funkcją deterministyczną ( T 1 , … , T k - 1 ), a zatem zmienne T i nie mogą być niezależne.Ti ∑iT2i χ2k Tk (T1,…,Tk−1) Ti
Dlatego musimy w jakiś sposób uwzględnić kowariancję między nimi. Okazuje się, że „poprawny” sposób to zrobić jest użycie zamiast i kowariancja pomiędzy składnikami U zmienia się także rozkład asymptotycznej od tego, co możemy mieć myśl była χ 2 k , co jest w rzeczywistości, a χ 2 k - 1 .Ui U χ2k χ2k−1
Kilka szczegółów na ten temat.
Bardziej rygorystyczne traktowanie
Nie jest trudno sprawdzić, czy w rzeczywistości dlai≠j.Cov(Ui,Uj)=−πiπj−−−−√ i≠j
Zatem kowariancja wynosi A = I - √U
gdzie √
Teraz, przez wielowymiarowe Centralnego twierdzenia granicznego , wektor posiada asymptotycznej wielowymiarowy rozkład normalny ze średnią 0 i kowariancji A .U 0 A
Tak więc, ma taki sam rozkład asymptotycznej jako A Z , a więc takiego samego rozkładu asymptotyczna z X 2 = U t U jest taki sam jak rozkład Z T A T A Z = Z T A Z przez ciągłe twierdzenia odwzorowania .U AZ X2=UTU ZTATAZ=ZTAZ
Ale jest symetryczny i idempotentny, więc ( a ) ma ortogonalne wektory własne, ( b ) wszystkie jego wartości własne wynoszą 0 lub 1, oraz ( c ) krotność wartości własnej 1 wynosi r a n k ( A ) . Oznacza to, że można rozłożyć jak A = Q R Q , T , gdzie Q jest ortogonalny, a D jest macierzą diagonalną o r a n K ( ) te na przekątnej, a pozostałe pozycje ukośne zerowej.A rank(A) A A=QDQT Q D rank(A)
Inne połączenia
Statystyka chi-kwadrat jest również ściśle powiązana ze statystykami współczynnika wiarygodności. Rzeczywiście, jest to statystyka wyniku Rao i może być postrzegana jako przybliżenie szeregu Taylora statystyki wskaźnika prawdopodobieństwa.
Bibliografia
To mój własny rozwój oparty na doświadczeniu, ale oczywiście pod wpływem klasycznych tekstów. Są dobre miejsca, w których można dowiedzieć się więcej
źródło