Test chi-kwadrat dla równości rozkładów: ile zer toleruje?

10

Porównuję dwie grupy mutantów, z których każda może mieć tylko jeden z 21 różnych fenotypów. Chciałbym zobaczyć, czy rozkład tych wyników jest podobny między dwiema grupami. Znalazłem test online, który oblicza „test chi-kwadrat dla równości rozkładów” i daje pewne wiarygodne wyniki. Mam jednak kilka zer w tej tabeli, więc czy w ogóle mogę w tym przypadku użyć chi-kwadrat?

Oto tabela z dwiema grupami i liczbą poszczególnych fenotypów:

2 1
2 3
1 6
1 4
13 77
7 27
0 1
0 4
0 2
2 7
2 3
1 5
1 9
2 6
0 3
3 0
1 3
0 3
1 0
1 2
0 1
Membran
źródło
Stół nie wyszedł dobrze. Każda liczba nieparzysta jest liczbą z grupy 1, a każda liczba parzysta jest odpowiednią liczbą z grupy 2
Membran
Przeformatowałem twoje pytanie. Czy tabela jest teraz poprawna?
csgillespie

Odpowiedzi:

8

W dzisiejszych czasach doskonale możliwe jest wykonanie „dokładnego” testu Fishera na takim stole. Właśnie otrzymałem p = 0,087 przy użyciu Staty ( tabi 2 1 \ 2 3 \ .... , exact. Wykonanie zajęło 0,19 sekundy).

EDYCJA po komentarzu chl poniżej (próbowałem dodać jako komentarz, ale nie można sformatować):

Działa dla mnie w wersji 2.12.0, chociaż musiałem zwiększyć opcję „obszaru roboczego” ponad jej domyślną wartość 200000:

> fisher.test(x)
Error in fisher.test(x) : FEXACT error 7.
LDSTP is too small for this problem.
Try increasing the size of the workspace.
> system.time(result<-fisher.test(x, workspace = 400000))
   user  system elapsed 
   0.11    0.00    0.11 
> result$p.value
[1] 0.0866764

(Czas wykonania jest nieco szybszy niż w Stacie, ale ma to wątpliwe znaczenie, biorąc pod uwagę czas poświęcony na zrozumienie komunikatu o błędzie, który używa „obszaru roboczego” w znaczeniu innego niż zwykłe znaczenie R, pomimo faktu, że fisher.test jest częścią podstawowego pakietu „statystyk” R.)

jeden przystanek
źródło
1
Co ciekawe, test Fishera rozbił się na R.
chl.
Niestety, nie mogę głosować więcej. Wygląda na to, że nie zwiększyłem wystarczająco wksp :)
chl
Czyż nie jest tak, że „dokładny” test Fishera faktycznie odpowiada na nieco inne pytanie: „... służy do zbadania znaczenia powiązania (przygodności) między dwoma rodzajami klasyfikacji” (strona wiki). W moim przypadku starałem się potwierdzić (lub obalić) hipotezę, że rozkłady fenotypów między 2 grupami są podobne (równe). Kiedy znalazłem ten test online (patrz pierwszy post) o nazwie „Test chi-kwadrat dla równości rozkładów”, pomyślałem, że to właśnie z moim problemem ...
Membran
Ponadto, jeśli uważasz, że wspomniana wersja testu Fishera jest odpowiednia do porównania dwóch rozkładów, czy można jej również użyć do sprawdzenia jednorodności rozkładu (tzn. Powiedzieć, że fenotypy w obrębie jednej grupy były rozmieszczone nierównomiernie między skończoną liczbą możliwych fenotypów) ? Można to zrobić nawet w programie Excel za pomocą funkcji CHITEST, ale co, jeśli mam rozkład podobny do powyższego, z dużą ilością fenotypów zaobserwowanych mniej niż 5 razy?
Membran
@Membran # 1: Jest to nieco inne pytanie, ponieważ dokładne warunki testu Fishera dla obu zestawów wartości krańcowych. Wydaje mi się to jednak akademicką subtelnością statystyczną, a ja jestem statystyką akademicką. (BTW, czy możesz wyjaśnić, do której wiki się odwołujesz?) @Membran # 2: Nie nazwałbym warunkowego testu dokładnego „dokładnym testem Fishera” w przypadku tabeli jednokierunkowej, ale taki test powinien być możliwy. I ja pomyślałbym bardziej jednoznacznie w przypadku tabel jednokierunkowych, ale obecnie nie mogę znaleźć oprogramowania do pomocy i nie mam czasu, aby wykonać obliczenia bez.
onestop
5

Zazwyczaj wytyczne przewidują, że oczekiwane liczby powinny być większe niż 5, ale można je nieco rozluźnić, jak omówiono w następującym artykule:

Testy Campbella, I, Chi-kwadrat i Fishera – Irwina dla tabel dwa na dwa z zaleceniami dla małych próbek , Statistics in Medicine (2007) 26 (19): 3661–3675.

Zobacz także stronę domową Iana Campbella .

pchisq.test(..., sim=TRUE)

W twoim przypadku wydaje się, że około 80% oczekiwanych liczb jest poniżej 5, a 40% poniżej 1. Czy sensowne byłoby agregowanie niektórych zaobserwowanych fenotypów?

chl
źródło
Dziękuję za sugestie. Logicznie rzecz biorąc, nie jest całkiem możliwe połączenie fenotypów, ponieważ każdy z nich jest unikalną kombinacją trzech zarejestrowanych parametrów. Ponieważ każdy z tych parametrów może przejść „w górę”, „w dół” lub pozostać „niezmieniony” w wyniku mutacji, więc może istnieć 3 ^ 3 = 27 różnych fenotypów. W powyższym przykładzie usunąłem fenotypy, dla których obie grupy uzyskały „0”, więc było ich tylko 21. Widzę występowanie niektórych fenotypów, ale chciałbym mieć jakiś statystyczny dowód, że rozmieszczenie takich fenotypów w różnych grupach mutantów jest podobne (lub nie). Dziękuję Ci!
Membran
1
@Membran Aggregation nie musi mieć znaczenia: możesz łączyć pojemniki w dowolny sposób. Subtelny problem polega jednak na tym, że agregacja post facto poddaje w wątpliwość wartości p; agregacja powinna być niezależna od danych.
whuber