Biorąc pod uwagę moc komputerów w dzisiejszych czasach, czy jest kiedykolwiek powód do przeprowadzenia testu chi-kwadrat zamiast dokładnego testu Fishera?

86

Biorąc pod uwagę, że oprogramowanie potrafi obecnie tak łatwo obliczać dokładne testy Fishera , czy istnieją jakieś okoliczności, w których teoretycznie lub praktycznie lepiej jest wykonać test chi-kwadrat niż dokładny test Fishera?

Zalety dokładnego testu Fishera obejmują:

  • skalowanie do tabel nieprzewidzianych większych niż 2x2 (tj. dowolna tabela r x c )
  • daje dokładną wartość p
  • nie musi mieć minimalnej oczekiwanej liczby komórek, aby była ważna
pmgjones
źródło
10
Ponieważ to stare, dobre klasyki. Wkrótce stanie się wykwintnym stylem vintage. Odtąd jednak, kiedy ludzie powstają przeciwko komputerom, przeżyje drugą młodość.
ttnphns,
7
Czy kiedykolwiek próbowałeś obliczyć dokładną statystykę testową Fishera na dużym stole? (Trwa to zbyt długo ...)
whuber
22
Oprócz dobrych komentarzy i odpowiedzi, które już otrzymałeś, myślę, że lepszym pytaniem jest „Biorąc pod uwagę moc komputerów, dlaczego nie robić przez cały czas testów symulacyjnych / permutacyjnych?”.
Peter Flom
1
@ whuber Zrobiłem (zastrzeżoną) implementację bez (dużej liczby) tabel w C ++. Uruchamia tysiące wartości P dla liczb do 8 cyfr w sekundach.
Michel de Ruiter,
1
@Michel Miałem na myśli całkowitą liczbę komórek w tabeli. Obliczenia są łatwe dla tabel 2 x 2, ale ponieważ tabele stają się duże, obliczenia stają się uciążliwe.
whuber

Odpowiedzi:

61

Możesz odwrócić pytanie. Ponieważ zwykły test Pearsona jest prawie zawsze dokładniejszy niż dokładny test Fishera i jest znacznie szybszy do obliczenia, dlaczego ktoś używa testu Fishera?χ2

Zauważ, że błędem jest, że oczekiwane częstotliwości komórek muszą przekraczać 5, aby Pearsona zapewniło dokładne wartościTest jest dokładny, o ile oczekiwane częstotliwości komórek przekraczają 1,0, jeśli do statystyki testu zastosowana zostanie bardzo prosta poprawka .χ2PN1N


Od R-help, 2009 :

Testy Campbella, I. Chi-kwadrat i Fishera-Irwina dla tabel dwa na dwa z zaleceniami dla małych próbek. Statystyka w medycynie 2007; 26 : 3661–3675. ( streszczenie )

  • ... najnowsze wydanie książki Armitage'a zaleca, aby nigdy nie stosować korekt ciągłości w testach chi-kwadrat tabeli awaryjnej;

  • E. modyfikacja Pearsona testu chi-kwadrat Pearsona, różniąca się od oryginału współczynnikiem (N-1) / N;

  • Cochran zauważył, że liczba 5 w „oczekiwanej częstotliwości mniejszej niż 5” była dowolna;

  • wyniki opublikowanych badań można podsumować w następujący sposób , dla badań porównawczych:

    1. Test chi-kwadrat Yate'a wykazuje poziomy błędu typu I niższe niż nominalne, często mniejsze niż połowa nominalnego;

    2. Test Fishera-Irwina wykazuje poziomy błędów typu I niższe niż nominalne;

    3. Wersja testu chi-kwadrat K Pearsona ma poziomy błędu typu I bliższe wartości nominalnej niż test chi-kwadrat Yate i test Fishera-Irwina, ale w niektórych sytuacjach błędy typu I są znacznie większe niż wartość nominalna;

    4. Test chi-kwadrat „N-1” zachowuje się jak wersja „N” K. Pearsona, ale tendencja do wartości wyższych niż nominalne jest zmniejszona;

    5. Dwustronnego testu Fishera-Irwin stosując regułę Irwina jest mniej konserwatywne niż metoda podwojenie jednostronnego prawdopodobieństwa;

    6. Test Fishera-Irwina w środkowej części P poprzez podwojenie jednostronnego prawdopodobieństwa działa lepiej niż standardowe wersje testu Fishera-Irwina, a metoda w środkowej części P według reguły Irwina działa jeszcze lepiej, mając rzeczywiste błędy typu I bliższe poziomom nominalnym. „;

  • silne wsparcie dla testu „N-1”, pod warunkiem że oczekiwane częstotliwości przekraczają 1;

  • błąd w teście Fishera, który opierał się na założeniu Fishera, że ​​wartości krańcowe nie zawierają żadnych użytecznych informacji;

  • wykazanie przydatnych informacji w bardzo małych próbkach;

  • Korekta ciągłości N / 2 przez Yate jest poważną nadwyżką korekty i jest nieodpowiednia;

  • istnieją kontrargumenty dotyczące zastosowania testów randomizacyjnych w badaniach randomizowanych;

  • obliczenia najgorszych przypadków;

  • ogólne zalecenie : zastosuj test chi-kwadrat „N-1”, gdy wszystkie oczekiwane częstotliwości wynoszą co najmniej 1, w przeciwnym razie zastosuj test Fishera-Irwina, stosując regułę Irwina do testów dwustronnych, biorąc tabele z jednego ogona za prawdopodobne lub mniejsze, jak to zaobserwowano; patrz list do redakcji Antonio Andres i odpowiedź autora w 27: 1791-1796; 2008.


Crans GG, Shuster JJ. Jak konserwatywny jest dokładny test Fishera? Ocena ilościowa dwupróbowej porównawczej próby dwumianowej. Statystyka w medycynie 2008; 27 : 3598–3611. ( streszczenie )

  • ... pierwsza praca, która naprawdę kwantyfikuje konserwatywność testu Fishera;

  • „rozmiar testu FET był mniejszy niż 0,035 dla prawie wszystkich wielkości próbek przed 50 i nie zbliżył się do 0,05, nawet dla próbek powyżej 100.”;

  • konserwatywność metod „dokładnych”;

  • patrz Stat. w Med 28 : 173-179, 2009, aby uzyskać krytykę, na którą nie udzielono odpowiedzi


Lydersen S, Fagerland MW, Laake P. Zalecane testy dla asocjacji w tabelach . Statystyka w medycynie 2009; 28 : 1159–1175. ( streszczenie )2×2

  • ... Dokładny test Fishera nigdy nie powinien być stosowany, chyba że zastosowana zostanie korekcja środkowego ;P

  • wartość bezwarunkowych testów;

  • patrz list do redakcji 30: 890–891; 2011

Frank Harrell
źródło
1
Czy możesz zasugerować, jak zastosować korektę (N-1) / N? Czy są jakieś kalkulatory online, które zawierają tę korektę? Czy istnieje prosty sposób ręcznego dostosowania wyników testu chi-kwadrat, aby samemu dokonać tej korekty?
DW
Jednym z wyżej wymienionych źródeł jest twój najlepszy zakład.
Frank Harrell,
1
Dlaczego mówisz, że „jest prawie zawsze dokładniejszy niż dokładny test Fishera” ? Powiedziałbym odwrotnie, ponieważ nie jest „dokładnym” testem. χ2 χ2
Stéphane Laurent,
2
Oznaczanie czegoś jako „dokładnego” tego nie czyni. Zobacz wspaniałe wyjaśnienie poniżej autorstwa @suncoolsu, którego musieliście przeoczyć (przeoczyliście również wszystkie powyższe wyjaśnienia). Test Pearsona jest jeszcze bardziej dokładny niż myślał Pearson. Zobacz na przykład citeulike.org/user/harrelfe/article/13265687 i citeulike.org/user/harrelfe/article/13263676 „Dokładny” test Fishera jest dokładny tylko w tym sensie, że prawdziwy błąd typu I nie jest większy niż deklarowany. Ale okazuje się, że jest mniejszy niż deklarowany, więc błąd typu II jest wyższy, co oznacza mniejszą moc.
Frank Harrell,
Znam znaczenie dokładności. Dokładnym punktem, który mi się nie podoba w przypadku niedokładnych testów, jest możliwość, że błąd typu I jest wyższy niż poziom nominalny. Ale masz rację, źle odczytałem twoją odpowiedź i drugą (obie są świetne)
Stéphane Laurent,
47

To świetne pytanie.

Dokładny test Fishera jest jednym ze wspaniałych przykładów sprytnego wykorzystania projektu eksperymentalnego przez Fishera , wraz z uwarunkowaniem danych (w zasadzie na tabelach z obserwowanymi sumami wierszy i marginesów) i jego pomysłowością w znajdowaniu rozkładów prawdopodobieństwa (choć nie jest to najlepszy przykład , dla lepszego przykładu zobacz tutaj ). Wykorzystanie komputerów do obliczenia „dokładnych” wartości p zdecydowanie pomogło uzyskać dokładne odpowiedzi.

Trudno jednak uzasadnić założenia dokładnego testu Fishera w praktyce. Ponieważ tak zwane „dokładne” pochodzi z faktu, że w „eksperymencie degustacji herbaty” lub w przypadku tablic awaryjnych 2x2 suma wierszy i suma kolumn, to znaczy sumy krańcowe są ustalone projektowo. To założenie rzadko jest uzasadnione w praktyce. Miłe referencje można znaleźć tutaj .

Nazwa „dokładna” prowadzi do przekonania, że ​​wartości p podane w tym teście są dokładne, co ponownie w większości przypadków jest niestety nieprawidłowe z tych powodów

  1. Jeśli marginesy nie są ustalone przez projekt (co zdarza się prawie za każdym razem w praktyce), wartości p będą zachowawcze.
  2. Ponieważ w teście zastosowano dyskretny rozkład prawdopodobieństwa (w szczególności rozkład hiper-geometryczny), dla niektórych wartości odcięcia niemożliwe jest obliczenie „dokładnych zerowych prawdopodobieństw”, to znaczy wartości p.

W większości praktycznych przypadków użycie testu ilorazu wiarygodności lub testu chi-kwadrat nie powinno dać bardzo różnych odpowiedzi (wartości p) od dokładnego testu Fishera. Tak, gdy marginesy są ustalone, dokładny test Fishera jest lepszym wyborem, ale zdarza się to rzadko. Dlatego przy sprawdzaniu spójności zawsze zaleca się stosowanie testu chi-kwadrat testu współczynnika wiarygodności.

Podobne pomysły mają zastosowanie, gdy dokładny test Fishera jest uogólniony na dowolną tabelę, co w zasadzie jest równoważne z obliczaniem wielowymiarowych właściwości hipergeometrycznych. Dlatego zawsze należy próbować obliczać wartości p oparte na rozkładzie chi-kwadrat i współczynniku prawdopodobieństwa, oprócz „dokładnych” wartości p.

suncoolsu
źródło