Mam sklasyfikowane dane w tabeli 2 x 2 x 6. Nazwijmy wymiary response
, A
i B
. Dopasowuję regresję logistyczną do danych za pomocą modelu response ~ A * B
. Analiza dewiacji tego modelu wskazuje, że oba terminy i ich interakcja są znaczące.
Jednak patrząc na proporcje danych, wygląda na to, że tylko 2 poziomy B
odpowiadają za te znaczące efekty. Chciałbym sprawdzić, które poziomy są sprawcami. Obecnie moim podejściem jest wykonanie 6 testów chi-kwadrat na 2 x 2 tabelach response ~ A
, a następnie dostosowanie wartości p z tych testów dla wielu porównań (przy użyciu dopasowania Holma).
Moje pytanie brzmi, czy istnieje lepsze podejście do tego problemu. Czy istnieje bardziej zasadnicze podejście do modelowania lub wielokrotne porównywanie testów chi-kwadrat?
Odpowiedzi:
Powinieneś spojrzeć na „dzielenie chi-kwadrat”. Jest to logicznie podobne do wykonywania testów post-hoc w ANOVA. Pozwoli ci to ustalić, czy twój znaczący ogólny test wynika przede wszystkim z różnic w poszczególnych kategoriach lub grupach kategorii.
Szybkie google pokazało tę prezentację, która na końcu omawia metody partycjonowania chi-kwadrat.
http://www.ed.uiuc.edu/courses/EdPsy490AT/lectures/2way_chi-ha-online.pdf
źródło
Bezproblemowe podejście polega na odrzuceniu nieproporcjonalnych danych, poprawieniu modelu i sprawdzeniu, czy iloraz logit / warunkowy szans dla odpowiedzi i A są bardzo różne (kontrola dla B). To może ci powiedzieć, czy jest powód do niepokoju. Kolejnym podejściem jest łączenie poziomów B. Na bardziej zasadniczych liniach, jeśli martwisz się względnymi proporcjami wywołującymi paradoks Simpsona, możesz przyjrzeć się warunkowym i marginalnym ilorazom szans na odpowiedź / A i sprawdzić, czy się odwrócą.
Aby uniknąć wielu porównań, jedyne, co przychodzi mi do głowy, to zastosowanie modelu hierarchicznego uwzględniającego losowe efekty na różnych poziomach.
źródło
Nie wiem dokładnie, jakie są twoje cele ani dlaczego są takie, jakie są. Ale zamiast testowania hipotez zwykle zalecam skupienie uwagi na przewidywaniach i przedziałach ufności.
źródło
Test Post Hoc może pasować do Twojego problemu. Funkcja chisqPostHoc () w testach R dla znaczących różnic między wszystkimi parami populacji w teście chi-kwadrat. Chociaż nie korzystałem z niego, ale ten link może być przydatny. https://www.rforge.net/doc/packages/NCStats/chisqPostHoc.html
Inną alternatywą może być funkcja chisq.desc () z pakietu EnQuireR.
źródło