Jaki jest związek między testem chi-kwadrat a testem o równych proporcjach?

52

Załóżmy, że mam trzy populacje o czterech wzajemnie wykluczających się cechach. Pobieram losowe próbki z każdej populacji i tworzę tabelę krzyżową lub tabelę częstotliwości dla cech, które mierzę. Czy mam rację mówiąc, że:

  1. Gdybym chciał sprawdzić, czy istnieje jakikolwiek związek między populacjami a cechami (np. Czy jedna populacja ma wyższą częstotliwość jednej z cech), powinienem przeprowadzić test chi-kwadrat i sprawdzić, czy wynik jest znaczący.

  2. Jeśli test chi-kwadrat jest znaczący, pokazuje mi tylko, że istnieje pewna zależność między populacjami i cechami, ale nie sposób ich powiązania.

  3. Ponadto nie wszystkie cechy muszą być związane z populacją. Na przykład, jeśli różne populacje mają znacząco różne rozkłady cech A i B, ale nie C i D, wówczas test chi-kwadrat może nadal powrócić jako znaczący.

  4. Gdybym chciał zmierzyć, czy konkretna cecha wpływa populacji, to mogę przeprowadzić test na równych proporcjach (Widziałem ten nazywa się Z-test, lub jak prop.test()w R) na tej właśnie cechy.

Innymi słowy, czy właściwe jest użycie parametru prop.test()do dokładniejszego określenia charakteru relacji między dwoma zestawami kategorii, gdy test chi-kwadrat mówi, że istnieje znaczący związek?

hgcrpd
źródło
Czytaj także: stats.stackexchange.com/q/173415/3277 .
ttnphns

Odpowiedzi:

23

Bardzo krótka odpowiedź:

Test chi-kwadrat ( chisq.test()w R) porównuje obserwowane częstotliwości w każdej kategorii tabeli nieprzewidzianych częstotliwości z oczekiwanymi częstotliwościami (obliczonymi jako iloczyn częstotliwości krańcowych). Służy do ustalenia, czy odchylenia między obserwowanymi a oczekiwanymi liczbami są zbyt duże, aby przypisać je przypadkowi. Odejście od niezależności można łatwo sprawdzić, sprawdzając pozostałości (spróbuj ?mosaicplotlub ?assocplot, ale także spójrz na vcdpaczkę). Użyj fisher.test()do dokładnego testu (w oparciu o rozkład hipergeometryczny).

prop.test()Funkcja na badania pozwala na sprawdzenie, czy proporcje są porównywalne w obu grupach i nie różnią się od prawdopodobieństwa teoretycznych. Jest to określane jako test- ponieważ statystyka testu wygląda następująco:z

z=(f1f2)p^(1p^)(1n1+1n2)

gdzie , a wskaźniki odnoszą się do pierwszej i drugiej linii tabeli. W dwustronnej tabeli awaryjnej, gdzie , powinno to dać porównywalne wyniki do zwykłego :p^=(p1+p2)/(n1+n2)(1,2)H0:p1=p2χ2

> tab <- matrix(c(100, 80, 20, 10), ncol = 2)
> chisq.test(tab)

    Pearson's Chi-squared test with Yates' continuity correction

data:  tab 
X-squared = 0.8823, df = 1, p-value = 0.3476

> prop.test(tab)

    2-sample test for equality of proportions with continuity correction

data:  tab 
X-squared = 0.8823, df = 1, p-value = 0.3476
alternative hypothesis: two.sided 
95 percent confidence interval:
 -0.15834617  0.04723506 
sample estimates:
   prop 1    prop 2 
0.8333333 0.8888889 

Do analizy dyskretnych danych za pomocą R, bardzo polecam Podręcznik R (i S-PLUS), aby towarzyszyć analizie danych kategorycznych Agresti (2002) , autorstwa Laury Thompson.

chl
źródło
2
Czy istnieje wspólna nazwa testu, który wykonuje prop.test ()?
Atticus29
2
„Jest to określane jako test Z”.
russellpierce
@chl Jestem trochę zdezorientowany - pomyślałem prop.testi chisq.testobaj używam chi-kwadrat, co tłumaczy identyczne wartości p, a także dlaczego w tym poście na R-Bloggerach mają swoją własną funkcję ad hoc.
Antoni Parellada,
@Antoni Tak, właśnie to wyjaśnił Keith w swojej odpowiedzi.
chl
3
co i , , , , ? n 2 f 1 f 2 p 1 p 2n1n2f1f2p1p2
tomka
23

Test chi-kwadrat dla równości dwóch proporcjach jest dokładnie takie samo jak -test. Rozkład chi-kwadrat z jednym stopniem swobody jest tylko rozkładem normalnym, kwadratowym. Zasadniczo po prostu powtarzasz test chi-kwadrat na podzbiorze tabeli awaryjnej. (Właśnie dlatego @chl otrzymuje dokładnie tę samą wartość dla obu testów).pzp

Problem z przeprowadzeniem globalnego testu chi-kwadrat najpierw, a następnie zejściem w dół, aby wykonać więcej testów na podzestawach, polega na tym, że niekoniecznie zachowasz swoją alfa - to znaczy, nie będziesz kontrolować fałszywych wyników pozytywnych na poziomie mniejszym niż 5% (lub cokolwiek ) w całym eksperymencie.α

Myślę, że jeśli chcesz to zrobić poprawnie w klasycznym paradygmacie, musisz na początku zidentyfikować swoje hipotezy (które proporcje porównać), zebrać dane, a następnie przetestować hipotezy tak, aby całkowity próg istotności każdej sumy testowej do . Chyba że możesz z góry udowodnić, że istnieje jakaś korelacja.α

Najpotężniejszy test na równość proporcji nazywa się testem Barnarda na wyższość .

Keith Winstein
źródło
@gung Jestem trochę zdezorientowany - pomyślałem prop.testi chisq.testobaj używam chi-kwadrat, co tłumaczy identyczne wartości p, a także dlaczego w tym poście na R-Bloggerach mają swoją własną funkcję ad hoc.
Antoni Parellada,
Nie rozumiem, co Cię dezorientuje, @AntoniParellada. Ta odpowiedź stwierdza, że ​​są „dokładnie takie same”, co ma sens, jeśli „oboje używają chi-kwadrat”.
Gung - Przywróć Monikę
@gung w oryginalnej odpowiedzi chl stwierdza, że prop.test()... jest określany jako test Z w przeciwieństwie do chisq.test(). Później Keith mówi: „Test chi-kwadrat dla równości dwóch proporcji jest dokładnie tym samym, co test Z. (Właśnie dlatego @chl uzyskuje dokładnie tę samą wartość p dla obu testów.)”
Antoni Parellada,
1
To wydaje się być nieoficjalnym frazowaniem, @AntoniParellada. Koncepcyjnie, dwa testy są różne, co omówiłem w mojej innej odpowiedzi, którą widziałeś. Ale matematycznie są one równoważne. W rzeczywistości uważam, że funkcja R prop.test()faktycznie wywołuje chisq.test()i drukuje dane wyjściowe inaczej.
Gung - Przywróć Monikę
@gung Pracowałem nad funkcją podobną do R-Blogerów i zamierzałem napisać post dla ludzi na poziomie początkującym, cytując w rzeczywistości kilka kluczowych pojęć, które napisaliście, analizując matematykę zarówno dla chi test kwadratowy i Z, a następnie podanie kodu R.
Antoni Parellada,