Jaki rozkład zakłada dokładny test Fishera?

11

W swojej pracy widziałem kilka zastosowań dokładnego testu Fishera i zastanawiałem się, jak dobrze pasuje do moich danych. Patrząc na kilka źródeł, rozumiałem, jak obliczyć statystyki, ale nigdy nie widziałem jasnego i formalnego wyjaśnienia przyjętej hipotezy zerowej.

Czy ktoś może mi wyjaśnić lub odesłać mnie do formalnego wyjaśnienia zakładanego podziału? Będzie wdzięczny za wyjaśnienie wartości w tabeli awaryjnej.

Amit Lavon
źródło
3
W przypadku 2x2 opiera się na rozkładzie hipergeometrycznym.
Glen_b

Odpowiedzi:

11

W przypadku założenie dystrybucyjne podaje dwie niezależne dwumianowe zmienne losowe X 1B i n ( n 1 , θ 1 ) i X 2B i n ( n 2 , θ 2 ) . Hipotezą zerową jest równość θ 1 = θ 2 . Ale dokładny test Fishera jest testem warunkowym: opiera się na rozkładzie warunkowym X 1, biorąc pod uwagę X 12×2X1Bin(n1,θ1)X2Bin(n2,θ2)θ1=θ2X1 . Ten rozkład jest rozkładem hipergeometrycznym z jednym nieznanym parametrem: iloraz szans ψ = θ 1X1+X2 , a następnie hipoteza zerowa wynosiψ=1.ψ=θ11θ1θ21θ2ψ=1

Ta dystrybucja ma swoją stronę w Wikipedii .

Aby ocenić to za pomocą R, możesz po prostu użyć wzoru określającego prawdopodobieństwo warunkowe:

p1 <- 7/27
p2 <- 14/70
x1 <- 7; n1 <- 27
x2 <- 14; n2 <- 56
# 
m <- x1+x2
dbinom(x1, n1, p1)*dbinom(x2, n2, p2)/sum(dbinom(0:m, n1, p1)*dbinom(m-(0:m), n2, p2))
[1] 0.1818838

Lub użyj dnoncenhypergeomfunkcji MCMCpackpakietu:

psi <- p1/(1-p1)/(p2/(1-p2)) # this is the odds ratio
MCMCpack::dnoncenhypergeom(x=x1, n1, n2, x1+x2, psi)
[1] 0.1818838
Stéphane Laurent
źródło
Dziękuję @Stephane. Czy możesz wyjaśnić dalej, dlaczego staje się hipergeometryczny i jakie są parametry?
Amit Lavon
2
Przepraszam @AmitLavon, nie znam szczegółów dotyczących tego rozkładu hipergeometrycznego.
Stéphane Laurent,
1
@AmitLavon Właśnie edytowałem moją odpowiedź, aby dołączyć link do wikipedii i kodu R.
Stéphane Laurent,
10

Tak zwany „dokładny” test Fishera sprawia, że ten sam rodzaj subtelne założeń, które testy zrobić.χ2)

  • Dwie zmienne podlegające ocenie pod kątem asocjacji są naprawdę wielomianowymi zmiennymi typu wszystko albo nic, takimi jak martwy / żywy USA / Europa. Jeśli jedna lub obie zmienne są uproszczeniem bazowego kontinuum, kategoryczna analiza danych w ogóle nie powinna być przeprowadzana.
  • YXYY=yXxYX2)×2)test tabeli kontyngencji zakłada, że ​​każdy pacjent poddany leczeniu A ma takie samo prawdopodobieństwo śmierci. [Można argumentować, że jest to zbyt rygorystyczne założenie, ale stanowisko to nie uznaje utraty władzy w wyniku nieskorygowanych testów asocjacji.]

χ2)XYYP.P.χ2) P.

Frank Harrell
źródło
Dziękuję @FrankHarrell. Czy możesz podać odniesienia do swojego twierdzenia, że ​​wartości P chi-kwadrat są bardziej dokładne niż wartości Fishera?
Amit Lavon
1
Zobacz na przykład citeulike.org/user/harrelfe/tag/fishers-exact-test . Zostało to szczegółowo omówione na temat wymiany stosów.
Frank Harrell,
niestety nie ma już ctiteulike, a web.archive.org najwyraźniej tylko zaindeksował pierwszą stronę konta harrelfe.
Glen_b