Chciałem lepiej zrozumieć dokładny test Fishera, więc wymyśliłem następujący przykład zabawki, w którym f i m odpowiada płci męskiej i żeńskiej, a n i y odpowiada takiemu „zużyciu sody”:
> soda_gender
f m
n 0 5
y 5 0
Oczywiście jest to drastyczne uproszczenie, ale nie chciałem, aby kontekst przeszkadzał. Tutaj po prostu założyłem, że mężczyźni nie piją napojów gazowanych, a kobiety piją napoje gazowane, i chciałem sprawdzić, czy procedury statystyczne dojdą do tego samego wniosku.
Kiedy uruchamiam dokładny test Fishera w R, otrzymuję następujące wyniki:
> fisher.test(soda_gender)
Fisher's Exact Test for Count Data
data: soda_gender
p-value = 0.007937
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.0000000 0.4353226
sample estimates:
odds ratio
0
Tutaj, ponieważ wartość p wynosi 0,007937, stwierdzilibyśmy, że płeć i spożycie sody są powiązane.
Wiem, że dokładny test Fishera jest związany z rozmieszczeniem hipergeomterycznym. Więc chciałem uzyskać podobne wyniki przy użyciu tego. Innymi słowy, możesz spojrzeć na ten problem w następujący sposób: jest 10 kulek, z których 5 jest oznaczonych jako „męskie”, a 5 jest oznaczonych jako „żeńskie”, a losujesz 5 piłek losowo bez zamiany, i widzisz 0 męskich kulek . Jaka jest szansa na tę obserwację? Aby odpowiedzieć na to pytanie, użyłem następującego polecenia:
> phyper(q=0,m=5,n=5,k=5,lower.tail=TRUE)
[1] 0.003968254
Moje pytania to: 1) Dlaczego dwa wyniki są różne? 2) Czy jest coś niepoprawnego lub rygorystycznego w powyższym rozumowaniu?
źródło