Dlaczego test niezależności wykorzystuje rozkład chi-kwadrat?

12

Test dobroci dopasowania wykorzystuje następującą statystykę : W teście warunki są spełnione, Można użyć - rozkład obliczyć p-wartość, biorąc pod uwagę prawda można by zaobserwować w takiej wartości reprezentatywnej próbki o tej samej wielkości.χ 2 0 = n i = 1 ( O i - E i ) 2χ2) χ2H0

χ02)=ja=1n(Oja-mija)2)mija
χ2)H.0

Jednak aby statystyki podążały za (z stopniami swobody), musi być prawdą, że: dla niezależnego, standardowego, normalnego ( Wikipedia ). Warunki testu są następujące (ponownie z Wikipedii ): χ 2 n - 1 n i = 1 ( O i - E i ) 2χ02)χ2)n-1 Zi

ja=1n(Oja-mija)2)mija=ja=1n-1Zja2)
Zja
  1. Próbka reprezentatywna dla populacji
  2. Duży rozmiar próbki
  3. Oczekiwana liczba komórek jest wystarczająco duża
  4. Niezależność między każdą kategorią

Z warunków (1,2) jasno wynika, że ​​spełniamy warunki wnioskowania z próby na populację. (3) wydaje się być wymaganym założeniem, ponieważ dyskretna liczba , która jest w mianowniku, nie powoduje prawie ciągłego rozkładu dla każdego a jeśli nie jest wystarczająco duża, występuje błąd, który można poprawić za pomocą Yatesa korekta - wydaje się, że wynika to z faktu, że rozkład dyskretny jest zasadniczo „ciągłym” rozkładem ciągłym, więc przesunięcie o dla każdego koryguje to.Z I 1 / 2mijaZja1/2)

Konieczność (4) wydaje się przydatna później, ale nie widzę, jak to zrobić.

Na początku myślałem, że jest konieczne, aby statystyki pasowały do ​​rozkładu. Doprowadziło mnie to do wątpliwego założenia, że , co rzeczywiście było błędne. W rzeczywistości ze zmniejszenia wymiaru dwóch stron równości od do jasno wynika, że nie może tak być. Oi-EiN(0,Zja=Oja-mijamijann-1Oja-mijaN.(0,mija)nn-1

Dzięki wyjaśnieniom stało się jasne, że nie musi być równe każdemu ponieważ (zwróć uwagę na zmniejszenie liczby zmiennych sumowanych) dla standardowych normalnych zmiennych losowych które są funkcjonalnie niezależne.O i - E iZja χ20=n-1i=1Z2iZiOja-mijamijaχ02)=ja=1n-1Zja2)Zja

Moje pytanie brzmi zatem, w jaki sposób podążać za ? Jakie kombinacje każdego z dają kwadratowe standardowe normalne ? To najwyraźniej wymaga użycia CLT (i to ma sens), ale jak? Innymi słowy , co każde równe (lub w przybliżeniu równe)? χ 2 ( O i - E i ) 2χ02)χ2)(Oja-mija)2)mijaZja2)Zja

VF1
źródło
1
Jestem ciekawy, gdzie przeczytałeś, że ktoś zakłada ostatnią rzecz, którą powiedziałeś ( ). Nie jest to konieczne: statystyka może mieć (przynajmniej do bardzo dobrego przybliżenia), przy czym żadna z tych znormalizowanych reszt nie ma rozkładu normalnego. Pytanie wydaje się zadać to w jaki sposób założenia te uzasadniają skierowania statystykę do dystrybucji? Same w sobie nie. W celu omówienia tego, co może pójść nie tak, zobacz mój post na stats.stackexchange.com/a/17148 . Oja-mijaN.(0,mija)χ2)χ2)χ2)χ2)
Whuber
1
Z równości dwóch sum kwadratów nie można wnioskować, że pierwiastki kwadratowe są równe termin po terminie! Ponieważ dotyczy to jedynie liczb, z pewnością dotyczy to również zmiennych losowych.
whuber
1
Aby uczynić ten konkretny, załóżmy, że są niezależnie dystrybuowane z rozkładami o stopniach swobody ν 1 , ν 2 , , ν n i że ν 1 + ν 2 + + ν n = n - 1, ale ν i1 dla wszystkich i . Zatem chociaż żadne z W i nie jest normalne, niemniej n i =(W.ja),ja=1,,nχν1,ν2),,νnν1+ν2)++νn=n-1νja1jaW.ja marozkład χ 2 ( n - 1 ) . ja=1nW.ja2)χ2)(n-1)
whuber
1
Jeśli przez „normalną kwadratową normalną” masz na myśli „sumę niezależnych kwadratowych normalnych normalnych”, to pytanie, jak sądzę, naprawdę chciałeś postawić na początku :-). I w końcu większość analiz sytuacji rzeczywiście odwołuje się do centralnego twierdzenia granicznego, aby udowodnić, że znormalizowane reszty asymptotycznie są standardową normą (ale nie całkiem niezależną, dlatego stopnie swobody wynoszą a nie n ). n-1n
whuber
1
n

Odpowiedzi:

6

XλXλ

(X-λ)2)λ
z2)

z2)

jazja2)=ZjaZ

ZQZ
Q

ja(zja-z¯)2)
Placidia
źródło
Przepraszam, ale zdecydowanie mnie zgubiłeś w „Jeśli zamiast tego robisz ...”
VF1
@ VF1, dokonałem zmiany, więc mam nadzieję, że będzie to bardziej jasne. Twierdzenie Cochrane'a jest odpowiedzią na twoje pytanie, kiedy suma kwadratów z normalnymi ma rozkład chi-kwadrat.
Placidia
1
OK, spojrzę na to. Pozostawię jednak pytanie otwarte, na wypadek, gdyby ktoś jeszcze mógł coś dodać.
VF1,
1
Zwykle wielkość próbki jest ustalona. Oznacza to, że niemożliwe jest, aby którykolwiek z wpisów był zgodny z rozkładem Poissona. Odwołanie do dystrybucji Poissona wygląda zatem tak, jakby to było kolejne przybliżenie - i wydaje się, że pozostawia nas tam, gdzie zaczynaliśmy.
whuber
1

χ2)

Zja=Oja-mijamija

Oja-mija(S.tzanrezarremirrorOfaT.hmiObsmirvmire)
.

(S.tzanrezarremirrorOfaT.hmiObsmirvmire)mijaZja=Oja-mijamija

W każdym razie możesz utworzyć testową statystykę formularza

Z=|Z1|+|Z2)|+|Z3)|+...

χ2)=Z12)+Z2)2)+Z3)2)+...

χ2)χ2)

χ2)

CamilB
źródło