Analizuję eksperymentalny zestaw danych. Dane składają się ze sparowanego wektora rodzaju leczenia i wyniku dwumianowego:
Treatment Outcome
A 1
B 0
C 0
D 1
A 0
...
W kolumnie wyników 1 oznacza sukces, a 0 oznacza niepowodzenie. Chciałbym dowiedzieć się, czy leczenie znacząco zmienia wynik. Istnieją 4 różne zabiegi, przy każdym eksperymencie powtarzanym wiele razy (2000 dla każdego zabiegu).
Moje pytanie brzmi: czy mogę analizować wynik binarny za pomocą ANOVA? Czy powinienem używać testu chi-kwadrat, aby sprawdzić dane dwumianowe? Wygląda na to, że chi-kwadrat zakłada, że proporcja zostanie równo podzielona, co nie jest prawdą. Innym pomysłem byłoby podsumowanie danych przy użyciu proporcji sukcesów w porównaniu z niepowodzeniami dla każdego leczenia, a następnie zastosowanie testu proporcji.
Jestem ciekawy twoich rekomendacji dla testów, które mają sens dla tego rodzaju dwumianowych eksperymentów powodzenia / niepowodzenia.
źródło
Być może niektórzy uważają to za staromodne, ale jeśli chcesz tylko przetestować hipotezę zerową wszystkich grup o równym prawdopodobieństwie sukcesu, możesz zdefiniować jako liczbę sukcesów w grupie , jako liczbę prób w grupie , szacunkową prawdopodobieństwo w grupie będzie wynosić , a następnie zastosuje transformację stabilizującą wariancję dla dwumianu, czyli Takie podejście było (czasami ) wystarczająco dobry dla Fishera, więc może być przydatny także dziś!Xk k nk k k p^k=Xk/nk
Jednak niektórzy współcześni autorzy są dość sceptycznie nastawieni do transformacji łukowej, patrz na przykład http://www.mun.ca/biology/dschneider/b7932/B7932Final10Dec2010.pdf Ale ci autorzy zajmują się takimi problemami, jak przewidywanie, gdzie pokazują Arcsine może prowadzić do problemów. Jeśli zajmujesz się tylko testowaniem hipotez, powinno być w porządku. Bardziej nowoczesne podejście może wykorzystywać regresję logistyczną.
źródło
Chciałbym się różnić od tego, co myślisz o teście Chi-Sq. Ma zastosowanie, nawet jeśli dane nie są dwumianowe. Opiera się na asymptotycznej normalności mle (w większości przypadków).
Zrobiłbym regresję logistyczną w ten sposób:
gdzie
Jest odpowiednikiem ANOVA, jeśli istnieje związek lub nie.
Czy test A ma jakiś wpływ.
Czy test B ma jakiś wpływ.
Czy test na C ma jakiś wpływ.
Teraz możesz robić kolejne kontrasty, aby znaleźć to, co Cię interesuje. To wciąż test chi-sq, ale z różnymi stopniami swobody (odpowiednio 3, 1, 1 i 1)
źródło
Myślę, że masz rację, że ANOVA nie powinna być używana do analizy dwumianowej zmiennej zależnej. Wiele osób używa tego do porównywania średnich zmiennej binarnej odpowiedzi (0 1), ale nie należy jej używać, ponieważ poważnie narusza to założenie Normalności i Równości wariancji. Testy chi-kwadrat lub regresja logistyczna są najlepsze w takich sytuacjach.
źródło