Na jakim poziomie test

15

TŁO: Pomiń bezpiecznie - jest tutaj w celach informacyjnych i uzasadnia pytanie.

Otwarcie tego artykułu brzmi:

„Słynny test przygodności chi-kwadrat Karla Pearsona pochodzi z innej statystyki, zwanej statystyką z, opartej na rozkładzie normalnym. Najprostsze wersje mogą być matematycznie identyczne z równoważnymi testami z. Testy dają taki sam wynik we wszystkich okolicznościach. Dla wszystkich celów i celów „chi-kwadrat” można by nazwać „z-kwadrat”. Wartości krytyczne dla jednego stopnia swobody są kwadratem odpowiednich wartości krytycznych z. ”χ2χ2

Zostało to wielokrotnie potwierdzone w CV ( tutaj , tutaj , tutaj i innych).

I rzeczywiście możemy udowodnić, że jest równoważne z :χ1df2X2XN(0,1)

Powiedzmy, że i że i znajdź gęstość za pomocą metody :XN(0,1)Y=X2Ycdf

p(Yy)=p(X2y)=p(yxy) . Problem polega na tym, że nie możemy zintegrować w ścisłej postaci gęstości rozkładu normalnego. Ale możemy to wyrazić:

FX(y)=FX(y)FX(y).
Biorąc pochodną:

fX(y)=FX(y)12y+FX(y)12y.

Ponieważ wartości normalnego pdf są symetryczne:

pdfxpdffX(y)=FX(y)1y . Zrównanie tego z normalnego (teraz w będzie aby być podłączonym do części normalnego ); i pamiętając o dołączeniu na końcu :pdfxpdf e - x 2y pdf1ex22pdf1y

fX(y)=FX(y)1y=12πey21y=12πey2y121

Porównaj z pdf kwadratu chi:

fX(x)=12ν/2Γ(ν2)ex2xν21

Ponieważ , dla df uzyskaliśmy dokładnie kwadratu chi. 1pdfΓ(1/2)=π1pdf

Ponadto, jeśli wywołamy funkcję prop.test()w R , wywołujemy ten sam test jak gdybyśmy zdecydowali .χ2chisq.test()

PYTANIE:

Dostaję więc wszystkie te punkty, ale wciąż nie wiem, jak odnoszą się one do faktycznej implementacji tych dwóch testów z dwóch powodów:

  1. Test Z nie jest podniesiony do kwadratu.

  2. Rzeczywiste statystyki testów są zupełnie inne:

Wartość statystyki testowej dlaχ2 wynosi:

χ2=i=1n(OiEi)2Ei=Ni=1npi(Oi/Npipi)2 gdzie

χ2 = skumulowana statystyka testu Pearsona, która asymptotycznie zbliża się do . = liczba obserwacji typu ; = całkowita liczba obserwacji; = = oczekiwana (teoretyczna) częstotliwość typu , potwierdzona hipotezą zerową, że ułamek typu w populacji wynosi ; = liczba komórek w tabeli.χ2OiiNEiNpiiipin

Z drugiej strony statystyka testu dla testu wynosi:z

Z=x1n1x2n2p(1p)(1/n1+1/n2) z , gdzie i to liczba „sukcesów” w stosunku do liczby przedmiotów na każdym z poziomów kategorii zmienne, tj. i .p=x1+x2n1+n2x1x2n1n2

Ta formuła wydaje się opierać na rozkładzie dwumianowym.

Te dwie statystyki testów są wyraźnie różne i dają różne wyniki dla faktycznych statystyk testu, a także dla wartości p : 5.8481dla i dla testu z, gdzie ( dziękuję, @ ​​mark999). Wartość p dla wynosi , podczas gdy dla testu z jest . Różnica wyjaśniona przez dwustronne versus jednostronne: (dziękuję @amoeba).χ22.41832.41832=5.84817χ20.015590.00770.01559/2=0.007795

Więc na jakim poziomie mówimy, że są jednym i tym samym?

Antoni Parellada
źródło
Ale są to dwa identyczne testy. Kwadrat Z to statystyka chi-kwadrat. Niech masz tabelę częstotliwości 2x2, w której kolumny to dwie grupy, a wiersze to „sukces” i „niepowodzenie”. Następnie tak zwane oczekiwane częstotliwości testu chi-kwadrat w danej kolumnie jest ważonym (przez N grup) średnim profilem kolumny (grupy) pomnożonym przez N. tej grupy. Okazuje się zatem, że chi-kwadrat testuje odchylenie każdy z dwóch profili grup z tego średniego profilu grupowego, co jest równoważne z testowaniem różnic między profilami grup, testem proporcji z.
ttnphns
W przykładzie na ostatnim hiperłączu jest prawie kwadratem statystyki testu z, ale nie do końca, a wartości p są różne. Ponadto, jeśli spojrzysz na powyższe wzory dla pozostałych statystyk, czy naprawdę jest naprawdę natychmiastowe, że są identyczne? A może nawet jeden kwadrat drugiego? χ2
Antoni Parellada,
2
W chisq.test(), próbowałeś używać correct=FALSE?
mark999
1
Rzeczywiście, Antoni. Oba testy istnieją z lub bez Yatesa. Czy to możliwe, że obliczasz jeden z drugim, ale drugi bez niego?
ttnphns,
1
Dziękuję Ci! Miałeś (przewidywalnie) rację. Przy wyłączonej korekcie Yatesa jedna jest tylko kwadratem drugiej. Zredagowałem to pytanie odpowiednio, choć trochę szybko. Nadal chciałbym udowodnić algebraicznie, że obie statystyki testowe są takie same (lub jeden kwadrat drugiego) i zrozumieć, dlaczego wartości p są różne.
Antoni Parellada,

Odpowiedzi:

12

Miejmy tabelę częstotliwości 2x2, w której kolumny to dwie grupy respondentów, a wiersze to dwie odpowiedzi „Tak” i „Nie”. I zamieniliśmy częstotliwości na proporcje w grupie, tj. Na profile pionowe :

      Gr1   Gr2  Total
Yes   p1    p2     p
No    q1    q2     q
      --------------
     100%  100%   100%
      n1    n2     N

Zwykły (nie poprawiony przez Yatesa) tej tabeli, po zastąpieniu proporcji zamiast częstotliwości w jej formule, wygląda następująco:χ2

n1[(p1p)2p+(q1q)2q]+n2[(p2p)2p+(q2q)2q]=n1(p1p)2+n2(p2p)2pq.

Pamiętaj, że , element średniej ważonej profilu dwóch profili i , i podłącz go do formuły, aby uzyskaćp=n1p1+n2p2n1+n2(p1,q1)(p2,q2)

...=(p1p2)2(n12n2+n1n22)pqN2

Podziel zarówno licznik, jak i mianownik przez (n12n2+n1n22) i uzyskaj

(p1p2)2pq(1/n1+1/n2)=Z2,

kwadratowa statystyka Z testu Z proporcji dla odpowiedzi „Tak”.

Więc 2x2 jednorodność statystyki chi-kwadrat (i test) jest równoważna testowi z dwóch proporcji. Tak zwane częstotliwości oczekiwane obliczone w teście chi-kwadrat w danej kolumnie to ważony (przez grupę n) średni profil pionowy (tj. Profil „grupy średniej”) pomnożony przez profil tej grupy n. Okazuje się zatem, że chi-kwadrat testuje odchylenie każdego z dwóch profili grup od tego średniego profilu grupowego, co jest równoważne testowaniu różnic między profilami grup, co jest testem z proporcji.

Jest to jedna demonstracja powiązania między miarą asocjacji zmiennych (chi-kwadrat) a miarą różnicy w grupie (statystyka testu z). Powiązania atrybutów i różnice grup są (często) dwoma aspektami tego samego.


(Pokazuje rozwinięcie w pierwszym wierszu powyżej, prośba @ Antoni):

n1[(p1p)2p+(q1q)2q]+n2[(p2p)2p+(q2q)2q]=n1(p1p)2qpq+n1(q1q)2ppq+n2(p2p)2qpq+n2(q2q)2ppq=n1(p1p)2(1p)+n1(1p11+p)2p+n2(p2p)2(1p)+n2(1p21+p)2ppq=n1(p1p)2(1p)+n1(pp1)2p+n2(p2p)2(1p)+n2(pp2)2ppq=[n1(p1p)2][(1p)+p]+[n2(p2p)2][(1p)+p]pq=n1(p1p)2+n2(p2p)2pq.

ttnphns
źródło
@ttnphs To jest świetne! Każda szansa, że ​​możesz wyjaśnić etap pośredni w formule pierwszego równania ( ) - Nie widzę, jak ustępuje po znaku równości. χ2q
Antoni Parellada,
@ttnphs Po rozwinięciu otrzymujęn1[(p1p)2p+(q1q)2q]+n2[(p2p)2p+(q2q)2q]=n1(q(p2+p(2p12q1+p12)+p(q2+q12)pq)+n2(q(p2+p(2p22q2)+p22)+p(q2+q22)pq)
Antoni Parellada,
@ttnphs ... Lub jakieś referencje, więc pisanie lateksu jest mniej pracochłonne ... A ja natychmiast i szczęśliwie „przyjmuję” odpowiedź ...
Antoni Parellada
@Antoni, wstawiono rozszerzenie.
ttnphns
@ttnphns Awesome!
Antoni Parellada,