Dlaczego testy chi-kwadrat używają oczekiwanej liczby jako wariancji?

18

W testach , jaka jest podstawa zastosowania pierwiastka kwadratowego z oczekiwanych zliczeń jako odchyleń standardowych (tj. Oczekiwanych zliczeń jako wariancji) każdej z rozkładów normalnych? Jedyne, co mogłem znaleźć, omawiając to w ogóle, to http://www.physics.csbsju.edu/stats/chi-square.html , i tylko wspomina o rozkładach Poissona.χ2

Jako prostą ilustrację mojego zamieszania, co gdybyśmy testowali, czy dwa procesy są znacząco różne, jeden, który generuje 500 As i 500 Bs z bardzo małą wariancją, a drugi, który generuje 550 As i 450 Bs z bardzo małą wariancją (rzadko generującą 551 As i 449 Bs)? Czy ta wariancja nie jest wyraźnie nie tylko oczekiwaną wartością?

(Nie jestem statystykiem, więc naprawdę szukam odpowiedzi dostępnej dla niespecjalistów).

Yang
źródło
Prawdopodobnie ma to coś wspólnego z faktem, że wariancja zmiennej losowej wynosi a także z faktem, że statystyki należy pomnożyć przez 2, aby uzyskać prawidłowy rozkład (jak w test ilorazu wiarygodności). Być może ktoś wie o tym bardziej formalnie. χk22k
Makro,

Odpowiedzi:

16

Ogólna forma wielu statystyk testowych to

observedexpectedstandarderror

W przypadku zmiennej normalnej błąd standardowy opiera się na znanej wariancji populacji (statystyki Z) lub na oszacowaniu z próby (statystyki T). W przypadku dwumianu błąd standardowy opiera się na proporcji (hipotetyczna proporcja dla testów).

W tabeli awaryjnej liczbę w każdej komórce można traktować jako pochodzącą z rozkładu Poissona ze średnią równą wartości oczekiwanej (poniżej wartości zerowej). Wariancja rozkładu Poissona jest równa średniej, dlatego też do obliczenia błędu standardowego używamy również wartości oczekiwanej. Widziałem statystykę, która używa obserwowanego zamiast tego, ale ma mniej teoretycznego uzasadnienia i nie jest tak zbieżna z .χ2

Greg Snow
źródło
1
Utknąłem w związku z Poissonem / rozumiem, dlaczego każdą komórkę można uznać za pochodzącą z Poissona. Znam średnią / wariancję Poissons i wiem, że reprezentują one liczbę zdarzeń przy danym współczynniku. Wiem również, że rozkłady chi-kwadrat reprezentują sumę kwadratów normalnych (wariancja 1) normalnych. Usiłuję po prostu oprzeć głowę na uzasadnieniu ponownego użycia oczekiwanej wartości jako założenia „rozprzestrzeniania się” każdej z normalnych. Czy to tylko po to, aby wszystko było zgodne z rozkładem chi-kwadrat / z „standaryzacją” normalnych?
Yang,
3
Jest kilka problemów, rozkład Poissona jest wspólny dla zliczeń, gdy rzeczy są dość niezależne. Zamiast myśleć o tym, że tabela ma stałą sumę, a dzielisz wartości między komórki tabeli, pomyśl o jednej komórce tabeli i czekasz przez określony czas, aby zobaczyć, ile odpowiedzi wpada do tej komórki , to pasuje do ogólnej idei Poissona. Dla dużych oznacza, że ​​możesz aproksymować Poissona o rozkładzie normalnym, więc statystyka testowa ma sens jako normalne przybliżenie Poissona, a następnie przekształca się na . χ2
Greg Snow,
1
(+1) Załóżmy, że liczba komórek były niezależnymi zmiennymi losowymi Poissona ze średnią n gatunku I . Zatem z pewnością k i = 1 ( X i - n π i ) 2Xi,,Xknπi w rozkładzie. Problem polega jednak na tym, żenjestparametrem,a nie faktyczną liczbą zliczeń. Całkowite obserwowane liczby wynosząN= k i = 1 XiPoi(n). ChociażN/n1prawie na pewno przez SLLN, należy wykonać jeszcze trochę pracy, aby zmienić heurystykę w coś wykonalnego. i=1k(Xinπi)2nπiχk2nN=i=1kXiPoi(n)N/n1
kardynał
Jako prostą ilustrację mojego zamieszania, co gdybyśmy testowali, czy dwa procesy są znacząco różne, jeden, który generuje 500 As i 500 Bs z bardzo małą wariancją, a drugi, który generuje 550 As i 450 Bs z bardzo małą wariancją (rzadko generującą 551 As i 449 Bs)? Czy ta wariancja nie jest wyraźnie nie tylko oczekiwaną wartością?
Yang,
1
@Yang: Brzmi jak twoje dane --- których nie opisałeś --- nie są zgodne z modelem leżącym u podstaw statystyki chi-kwadrat. Standardowym modelem jest modelowanie wielomianowe . Ściśle mówiąc, nie uwzględniono nawet (bezwarunkowego) próbkowania Poissona, co zakłada odpowiedź Grega. Odnoszę się (być może tępo) do tego w poprzednim komentarzu.
kardynał
17

Zajmijmy się najprostszym przypadkiem, aby zapewnić jak najwięcej intuicji. Niech będzie próbką iid z rozkładu dyskretnego z k wyników. Niech π 1 , , π k będą prawdopodobieństwami każdego konkretnego wyniku. Interesuje nas (asymptotyczny) rozkład statystyki chi-kwadrat X 2 = k i = 1 ( S i - n π i ) 2X1,X2,,Xnkπ1,,πk Tutaj n π i jest oczekiwaną liczbą zliczeń i- tego wyniku.

X2=i=1k(Sinπi)2nπi.
nπii

Sugestywna heurystyka

Zdefiniuj , tak żeX2=iU 2 i =U 2 2 gdzieU=(U1,,Uk).Ui=(Sinπi)/nπiX2=iUi2=U22U=(U1,,Uk)

Ponieważ jest B i n ( n , π i ) , to według Twierdzenia Granicy Centralnej , T i = U iSiBin(n,πi) Stąd też ma to, U i d N ( 0 , 1 - π I ) .

Ti=Ui1πi=Sinπinπi(1πi)dN(0,1),
UidN(0,1πi)

Teraz, jeśli były (asymptotycznie) niezależne (które nie są), to możemy twierdzić, że Σ i T 2 i było asymptotycznie χ 2 k dystrybuowane. Należy jednak zauważyć, że T k jest funkcją deterministyczną ( T 1 , , T k - 1 ), a zatem zmienne T i nie mogą być niezależne.TiiTi2χk2Tk(T1,,Tk1)Ti

Dlatego musimy w jakiś sposób uwzględnić kowariancję między nimi. Okazuje się, że „poprawny” sposób to zrobić jest użycie zamiast i kowariancja pomiędzy składnikami U zmienia się także rozkład asymptotycznej od tego, co możemy mieć myśl była χ 2 k , co jest w rzeczywistości, a χ 2 k - 1 .UiUχk2χk12

Kilka szczegółów na ten temat.

Bardziej rygorystyczne traktowanie

Nie jest trudno sprawdzić, czy w rzeczywistości dlaij.Cov(Ui,Uj)=πiπjij

Zatem kowariancja wynosi A = I - U gdzie

A=IππT,
. Zauważ, że jest symetryczna i idempotent, czyli=2=T. Zatem w szczególności, jeśliZ=(Z1,,Zk)ma standardowe standardowe składowe, wówczasAZN(0,A). (Uwaga:Rozkład normalny wielowymiarowy w tym przypadku jestzdegenerowany).π=(π1,,πk)AA=A2=ATZ=(Z1,,Zk)AZN(0,A)

Teraz, przez wielowymiarowe Centralnego twierdzenia granicznego , wektor posiada asymptotycznej wielowymiarowy rozkład normalny ze średnią 0 i kowariancji A .U0A

Tak więc, ma taki sam rozkład asymptotycznej jako A Z , a więc takiego samego rozkładu asymptotyczna z X 2 = U t U jest taki sam jak rozkład Z T A T A Z = Z T A Z przez ciągłe twierdzenia odwzorowania .UAZX2=UTUZTATAZ=ZTAZ

Ale jest symetryczny i idempotentny, więc ( a ) ma ortogonalne wektory własne, ( b ) wszystkie jego wartości własne wynoszą 0 lub 1, oraz ( c ) krotność wartości własnej 1 wynosi r a n k ( A ) . Oznacza to, że można rozłożyć jak A = Q R Q , T , gdzie Q jest ortogonalny, a D jest macierzą diagonalną o r a n K ( ) te na przekątnej, a pozostałe pozycje ukośne zerowej.Arank(A)AA=QDQTQDrank(A)

ZTAZχk12Ak1

Inne połączenia

Statystyka chi-kwadrat jest również ściśle powiązana ze statystykami współczynnika wiarygodności. Rzeczywiście, jest to statystyka wyniku Rao i może być postrzegana jako przybliżenie szeregu Taylora statystyki wskaźnika prawdopodobieństwa.

Bibliografia

To mój własny rozwój oparty na doświadczeniu, ale oczywiście pod wpływem klasycznych tekstów. Są dobre miejsca, w których można dowiedzieć się więcej

  1. GAF Seber i AJ Lee (2003), Linear Regression Analysis , wyd. 2, Wiley.
  2. E. Lehmann i J. Romano (2005), Testing Statistics Hypotheses , 3. wyd., Springer. W szczególności sekcja 14.3 .
  3. DR Cox i DV Hinkley (1979), Theoretical Statistics , Chapman and Hall.
kardynał
źródło
(+1) Myślę, że trudno jest znaleźć ten dowód w standardowych kategorycznych tekstach analizy danych, takich jak Agresti, A. (2002). Analiza danych kategorycznych. John-Wiley.
suncoolsu
Dziękuję za komentarz. Wiem, że w Agresti istnieje pewne podejście do statystyki chi-kwadrat, ale nie przypominam sobie, jak daleko to posuwa. Może odwołać się do asymptotycznej równoważności za pomocą statystyki współczynnika prawdopodobieństwa.
kardynał
Nie wiem, czy znajdziesz dowód powyżej w jakimkolwiek tekście. Nigdzie nie widziałem zastosowania pełnej (zdegenerowanej) macierzy kowariancji i jej właściwości. Zwykłe leczenie polega na (niedegenerowanym) rozkładzie pierwszegok-1współrzędne, a następnie wykorzystuje odwrotną macierz kowariancji (która ma ładną formę, ale która nie jest od razu oczywista) i pewną (nieco) żmudną algebrę do ustalenia wyniku.
kardynał
Twoja odpowiedź zaczyna się od zdefiniowania zestawu Xale następnie definiuje statystyki w kategoriach S.„s. Czy możesz podać w odpowiedzi coś, co wskazuje, w jaki sposób zmienne zdefiniowane na początku i zmienne w statystyce są powiązane?
Glen_b