Biorąc pod uwagę, że oprogramowanie potrafi obecnie tak łatwo obliczać dokładne testy Fishera , czy istnieją jakieś okoliczności, w których teoretycznie lub praktycznie lepiej jest wykonać test chi-kwadrat niż dokładny test Fishera?
Zalety dokładnego testu Fishera obejmują:
- skalowanie do tabel nieprzewidzianych większych niż 2x2 (tj. dowolna tabela r x c )
- daje dokładną wartość p
- nie musi mieć minimalnej oczekiwanej liczby komórek, aby była ważna
chi-squared
contingency-tables
fishers-exact
pmgjones
źródło
źródło
Odpowiedzi:
Możesz odwrócić pytanie. Ponieważ zwykły test Pearsona jest prawie zawsze dokładniejszy niż dokładny test Fishera i jest znacznie szybszy do obliczenia, dlaczego ktoś używa testu Fishera?χ2
Zauważ, że błędem jest, że oczekiwane częstotliwości komórek muszą przekraczać 5, aby Pearsona zapewniło dokładne wartościTest jest dokładny, o ile oczekiwane częstotliwości komórek przekraczają 1,0, jeśli do statystyki testu zastosowana zostanie bardzo prosta poprawka .χ2 P N−1N
Od R-help, 2009 :
... najnowsze wydanie książki Armitage'a zaleca, aby nigdy nie stosować korekt ciągłości w testach chi-kwadrat tabeli awaryjnej;
E. modyfikacja Pearsona testu chi-kwadrat Pearsona, różniąca się od oryginału współczynnikiem (N-1) / N;
Cochran zauważył, że liczba 5 w „oczekiwanej częstotliwości mniejszej niż 5” była dowolna;
wyniki opublikowanych badań można podsumować w następujący sposób , dla badań porównawczych:
Test chi-kwadrat Yate'a wykazuje poziomy błędu typu I niższe niż nominalne, często mniejsze niż połowa nominalnego;
Test Fishera-Irwina wykazuje poziomy błędów typu I niższe niż nominalne;
Wersja testu chi-kwadrat K Pearsona ma poziomy błędu typu I bliższe wartości nominalnej niż test chi-kwadrat Yate i test Fishera-Irwina, ale w niektórych sytuacjach błędy typu I są znacznie większe niż wartość nominalna;
Test chi-kwadrat „N-1” zachowuje się jak wersja „N” K. Pearsona, ale tendencja do wartości wyższych niż nominalne jest zmniejszona;
Dwustronnego testu Fishera-Irwin stosując regułę Irwina jest mniej konserwatywne niż metoda podwojenie jednostronnego prawdopodobieństwa;
Test Fishera-Irwina w środkowej części P poprzez podwojenie jednostronnego prawdopodobieństwa działa lepiej niż standardowe wersje testu Fishera-Irwina, a metoda w środkowej części P według reguły Irwina działa jeszcze lepiej, mając rzeczywiste błędy typu I bliższe poziomom nominalnym. „;
silne wsparcie dla testu „N-1”, pod warunkiem że oczekiwane częstotliwości przekraczają 1;
błąd w teście Fishera, który opierał się na założeniu Fishera, że wartości krańcowe nie zawierają żadnych użytecznych informacji;
wykazanie przydatnych informacji w bardzo małych próbkach;
Korekta ciągłości N / 2 przez Yate jest poważną nadwyżką korekty i jest nieodpowiednia;
istnieją kontrargumenty dotyczące zastosowania testów randomizacyjnych w badaniach randomizowanych;
obliczenia najgorszych przypadków;
ogólne zalecenie : zastosuj test chi-kwadrat „N-1”, gdy wszystkie oczekiwane częstotliwości wynoszą co najmniej 1, w przeciwnym razie zastosuj test Fishera-Irwina, stosując regułę Irwina do testów dwustronnych, biorąc tabele z jednego ogona za prawdopodobne lub mniejsze, jak to zaobserwowano; patrz list do redakcji Antonio Andres i odpowiedź autora w 27: 1791-1796; 2008.
... pierwsza praca, która naprawdę kwantyfikuje konserwatywność testu Fishera;
„rozmiar testu FET był mniejszy niż 0,035 dla prawie wszystkich wielkości próbek przed 50 i nie zbliżył się do 0,05, nawet dla próbek powyżej 100.”;
konserwatywność metod „dokładnych”;
patrz Stat. w Med 28 : 173-179, 2009, aby uzyskać krytykę, na którą nie udzielono odpowiedzi
... Dokładny test Fishera nigdy nie powinien być stosowany, chyba że zastosowana zostanie korekcja środkowego ;P
wartość bezwarunkowych testów;
patrz list do redakcji 30: 890–891; 2011
źródło
To świetne pytanie.
Dokładny test Fishera jest jednym ze wspaniałych przykładów sprytnego wykorzystania projektu eksperymentalnego przez Fishera , wraz z uwarunkowaniem danych (w zasadzie na tabelach z obserwowanymi sumami wierszy i marginesów) i jego pomysłowością w znajdowaniu rozkładów prawdopodobieństwa (choć nie jest to najlepszy przykład , dla lepszego przykładu zobacz tutaj ). Wykorzystanie komputerów do obliczenia „dokładnych” wartości p zdecydowanie pomogło uzyskać dokładne odpowiedzi.
Trudno jednak uzasadnić założenia dokładnego testu Fishera w praktyce. Ponieważ tak zwane „dokładne” pochodzi z faktu, że w „eksperymencie degustacji herbaty” lub w przypadku tablic awaryjnych 2x2 suma wierszy i suma kolumn, to znaczy sumy krańcowe są ustalone projektowo. To założenie rzadko jest uzasadnione w praktyce. Miłe referencje można znaleźć tutaj .
Nazwa „dokładna” prowadzi do przekonania, że wartości p podane w tym teście są dokładne, co ponownie w większości przypadków jest niestety nieprawidłowe z tych powodów
W większości praktycznych przypadków użycie testu ilorazu wiarygodności lub testu chi-kwadrat nie powinno dać bardzo różnych odpowiedzi (wartości p) od dokładnego testu Fishera. Tak, gdy marginesy są ustalone, dokładny test Fishera jest lepszym wyborem, ale zdarza się to rzadko. Dlatego przy sprawdzaniu spójności zawsze zaleca się stosowanie testu chi-kwadrat testu współczynnika wiarygodności.
Podobne pomysły mają zastosowanie, gdy dokładny test Fishera jest uogólniony na dowolną tabelę, co w zasadzie jest równoważne z obliczaniem wielowymiarowych właściwości hipergeometrycznych. Dlatego zawsze należy próbować obliczać wartości p oparte na rozkładzie chi-kwadrat i współczynniku prawdopodobieństwa, oprócz „dokładnych” wartości p.
źródło