Wiele testów chi-kwadrat

11

Mam sklasyfikowane dane w tabeli 2 x 2 x 6. Nazwijmy wymiary response, Ai B. Dopasowuję regresję logistyczną do danych za pomocą modelu response ~ A * B. Analiza dewiacji tego modelu wskazuje, że oba terminy i ich interakcja są znaczące.

Jednak patrząc na proporcje danych, wygląda na to, że tylko 2 poziomy Bodpowiadają za te znaczące efekty. Chciałbym sprawdzić, które poziomy są sprawcami. Obecnie moim podejściem jest wykonanie 6 testów chi-kwadrat na 2 x 2 tabelach response ~ A, a następnie dostosowanie wartości p z tych testów dla wielu porównań (przy użyciu dopasowania Holma).

Moje pytanie brzmi, czy istnieje lepsze podejście do tego problemu. Czy istnieje bardziej zasadnicze podejście do modelowania lub wielokrotne porównywanie testów chi-kwadrat?

JoFrhwld
źródło
Kiedyś zadałem to samo pytanie na liście mailingowej R i nie otrzymałem odpowiedzi. Sugeruję, abyś zmienił tytuł, ponieważ twoje pytanie dotyczy „analizy post hoc kwadratu chi - w celu wykrycia przyczyny znaczenia” (tytuły krótsze niż ta, którą zaproponowałem, byłyby lepsze :))
Tal Galili
Spójrz tylko na bety swoich winowajców ... I użyj poissońskiego, logarytmicznego modelu. Otrzymujesz wtedy to samo, co daje test chi-kwadrat, ale otrzymujesz wszystkie różne testy naraz.
probabilityislogic

Odpowiedzi:

11

Powinieneś spojrzeć na „dzielenie chi-kwadrat”. Jest to logicznie podobne do wykonywania testów post-hoc w ANOVA. Pozwoli ci to ustalić, czy twój znaczący ogólny test wynika przede wszystkim z różnic w poszczególnych kategoriach lub grupach kategorii.

Szybkie google pokazało tę prezentację, która na końcu omawia metody partycjonowania chi-kwadrat.

http://www.ed.uiuc.edu/courses/EdPsy490AT/lectures/2way_chi-ha-online.pdf

Brett
źródło
Ciekawy. Czy kiedykolwiek spotkałeś się z implementacją tego w języku R?
Tal Galili
Nie, nie bezpośrednio. Jednak R da ci wszystko, czego potrzebujesz, aby to zrobić - takie jak: obserwowane liczby, oczekiwane wartości i wartości resztkowe dla każdej komórki. x <- macierz (c (12, 5, 7, 7), ncol = 2) test chisq (x) obserwowany test chisq (x) $ resztkiexpectedchisq.test(x)
Brett
Dam ci kleszcza, ponieważ powinno to być przydatne w moim życiu badawczym. Jednak to podejście ma zastosowanie do macierzy IXJ. Moje pytanie dotyczy jednak macierzy ixjxk,
JoFrhwld
2
Partycjonowanie chi-kwadrat jest rozszerzalne na tablice nieprzewidziane. Oto artykuł, który Agresti cytuje w swojej książce, w rzeczywistości ... HO Lancaster (1951) „Złożone tabele nieprzewidziane traktowane przez podział χ2” Journal of Royal Statistics Society. Seria B (metodologiczna), tom. 13, nr 2
Brett
1

Bezproblemowe podejście polega na odrzuceniu nieproporcjonalnych danych, poprawieniu modelu i sprawdzeniu, czy iloraz logit / warunkowy szans dla odpowiedzi i A są bardzo różne (kontrola dla B). To może ci powiedzieć, czy jest powód do niepokoju. Kolejnym podejściem jest łączenie poziomów B. Na bardziej zasadniczych liniach, jeśli martwisz się względnymi proporcjami wywołującymi paradoks Simpsona, możesz przyjrzeć się warunkowym i marginalnym ilorazom szans na odpowiedź / A i sprawdzić, czy się odwrócą.

Aby uniknąć wielu porównań, jedyne, co przychodzi mi do głowy, to zastosowanie modelu hierarchicznego uwzględniającego losowe efekty na różnych poziomach.

ars
źródło
0

Nie wiem dokładnie, jakie są twoje cele ani dlaczego są takie, jakie są. Ale zamiast testowania hipotez zwykle zalecam skupienie uwagi na przewidywaniach i przedziałach ufności.

Michael Bishop
źródło
0

Test Post Hoc może pasować do Twojego problemu. Funkcja chisqPostHoc () w testach R dla znaczących różnic między wszystkimi parami populacji w teście chi-kwadrat. Chociaż nie korzystałem z niego, ale ten link może być przydatny. https://www.rforge.net/doc/packages/NCStats/chisqPostHoc.html

Inną alternatywą może być funkcja chisq.desc () z pakietu EnQuireR.

Dr Nisha Arora
źródło