Na dokładnym teście Fishera: jaki test byłby odpowiedni, gdyby kobieta nie znała liczby filiżanek po mleku?

18

W słynnym eksperymencie z próbowaniem herbaty przez RA Fishera dama jest informowana o tym, ile jest filiżanek z mlekiem / z herbatą (4 na 8 filiżanek). Jest to zgodne z ustalonym marginalnym całkowitym założeniem dokładnego testu Fishera.

Wyobraziłam sobie, że przeprowadzę ten test z przyjacielem, ale ta myśl mnie uderzyła. Jeśli kobieta naprawdę potrafi odróżnić kubki z mlekiem od herbaty i filiżanki z herbatą, powinna być w stanie obliczyć krańcowe wartości filiżanek z mlekiem z mlekiem / z herbatą, a także które z nich.

Oto pytanie: jakiego testu można by użyć, gdyby RA Fisher nie poinformował kobiety o całkowitej liczbie filiżanek z mlekiem i herbaty?

Alby
źródło
4
Niektórzy twierdzą, że nawet jeśli drugi margines nie jest ustalony z założenia, niesie on niewiele informacji o zdolności kobiety do dyskryminacji (tj. Jest w przybliżeniu pomocniczy) i powinien być uzależniony. Dokładny bezwarunkowy test (myślę, że po raz pierwszy zaproponowany przez Barnarda) jest bardziej skomplikowany, ponieważ musisz obliczyć maksymalną wartość p dla wszystkich możliwych wartości parametru uciążliwego.
Scortchi - Przywróć Monikę
4
W rzeczywistości badania Barnarda ma stronę Wikipedii.
Scortchi - Przywróć Monikę
@Scortchi, co jeszcze można powiedzieć? Nie dodałbym do tego niczego (nie powiedziałbym tego tak jasno i zwięźle). W dwóch komentarzach mam na to dobrą odpowiedź.
Glen_b
1
Jest dyskusja, na którą warto spojrzeć (zarówno w pracy papierowej, jak i dyskusyjnej) w Yates, F. (1984) „Testy znaczenia dla tablic nieprzewidzianych 2 × 2”, Journal of the Royal Statistics Society. Seria A (ogólnie) , tom. 147, nr 3, str. 426–463.
Glen_b
1
Tylko średnio ponad 4 filiżanki herbaty z mlekiem i 4 bez niej możemy powiedzieć, że jest prawdopodobne, że zgadnie poprawnie; a rozkład jej sumy poprawnych domysłów jest bardziej skoncentrowany na około 4 niż w przypadku rozkładu dwumianowego. Ale jeśli zgadnie „mleko” z prawdopodobieństwem , to zgadnie poprawnie z prawdopodobieństwem gdy w herbacie jest mleko, a kiedy nie, i rozkład jej suma prawidłowych domysłów ma rozkład dwumianowy. Należy więc rozważyć uciążliwy parametr ...12)12)12)
Scortchi - Przywróć Monikę

Odpowiedzi:

16

Niektórzy twierdzą, że nawet jeśli drugi margines nie jest ustalony z założenia, niesie niewiele informacji o zdolności kobiety do dyskryminacji (tj. Jest w przybliżeniu pomocniczy) i powinien być uzależniony. Dokładny bezwarunkowy test (po raz pierwszy zaproponowany przez Barnarda ) jest bardziej skomplikowany, ponieważ musisz obliczyć maksymalną wartość p dla wszystkich możliwych wartości parametru uciążliwego, a mianowicie wspólnego prawdopodobieństwa Bernoulliego w ramach hipotezy zerowej. Niedawno zaproponowano maksymalizację wartości p w przedziale ufności dla parametru uciążliwości: patrz Berger (1996), „Bardziej zaawansowane testy z przedziału ufności p Wartości”, The American Statistician , 50 , 4; przy pomocy tego pomysłu można skonstruować dokładne testy o właściwym rozmiarze.

Dokładny test Fishera powstaje również jako test losowy, w sensie Edgingtona: losowe przypisanie eksperymentalnych zabiegów pozwala na rozłożenie statystyki testowej na permutacje tych przypisań w celu przetestowania hipotezy zerowej. W tym podejściu ustalenia pani są uważane za ustalone (a marginalna suma filiżanek z mlekiem i z herbatą jest oczywiście zachowana przez permutację).

Scortchi - Przywróć Monikę
źródło
Można Barnard::barnardw.test()tu zastosować? Jakiej różnicy w złożoności obliczeniowej można się spodziewać w praktyce?
krlmlr
Nie znam tego pakietu, ale strona pomocy, do której prowadzą linki, odwołuje się do testu, o którym mówiłem. Zobacz także Exact. Jeśli chodzi o złożoność obliczeniową, nie wiem - będzie to zależeć od zastosowanego algorytmu maksymalizacji.
Scortchi - Przywróć Monikę
2

Dzisiaj przeczytałem pierwsze rozdziały „Projektu eksperymentów” RA Fishera, a jeden z akapitów uświadomił mi podstawową wadę mojego pytania.

Oznacza to, że nawet jeśli dama naprawdę potrafi odróżnić kubki z mlekiem od herbaty z mlekiem , nigdy nie mogę udowodnić, że ma tę zdolność „na podstawie dowolnej ilości eksperymentów”. Z tego powodu jako eksperymentator powinienem zacząć od założenia, że ​​nie ma zdolności (hipoteza zerowa) i spróbować ją odrzucić. Oryginalny plan eksperymentu (dokładny test Fishera) jest wystarczającą, wydajną i uzasadnioną procedurą do tego.

Oto fragment „Projektu eksperymentów” RA Fishera:

Można argumentować, że jeśli eksperyment może obalić hipotezę, że podmiot nie ma żadnej rozróżnienia sensorycznego między dwoma różnymi rodzajami obiektów, musi zatem być w stanie udowodnić przeciwną hipotezę, że może dokonać takiej dyskryminacji. Ale ta ostatnia hipoteza, jakkolwiek uzasadniona lub prawdziwa, nie kwalifikuje się jako hipoteza zerowa, którą należy przetestować eksperymentalnie, ponieważ jest niedokładna. Gdyby twierdzić, że badana nigdy nie pomyliłaby się w swoich osądach, mamy ponownie dokładną hipotezę i łatwo zauważyć, że hipoteza ta mogłaby zostać obalona przez pojedynczą porażkę, ale nigdy nie mogłaby zostać udowodniona przez jakąkolwiek skończoną liczbę eksperymentów .

Alby
źródło
1

Test Barnarda jest stosowany, gdy parametr uciążliwości jest nieznany w ramach hipotezy zerowej.

Jednak w teście degustacji dam można argumentować, że parametr uciążliwości można ustawić na 0,5 w ramach hipotezy zerowej (prawdopodobieństwo, że niedoinformowana dama ma 50% prawdopodobieństwa prawidłowego odgadnięcia filiżanki).

Następnie liczba poprawnych domysłów, zgodnie z hipotezą zerową, staje się rozkładem dwumianowym: zgadywanie 8 filiżanek z 50% prawdopodobieństwem dla każdej filiżanki.


W innych przypadkach możesz nie mieć tego trywialnego 50% prawdopodobieństwa dla hipotezy zerowej. I bez ustalonych marginesów możesz nie wiedzieć, jakie powinno być to prawdopodobieństwo. W takim przypadku potrzebujesz testu Barnarda.


Nawet jeśli wykonałbyś test Barnarda na teście herbaty dla kobiet smakujących, i tak stałby się 50% (jeśli wynik jest prawidłowy), ponieważ uciążliwy parametr o najwyższej wartości p wynosi 0,5 i dałby trywialny test dwumianowy ( w rzeczywistości jest to połączenie dwóch testów dwumianowych: jednego dla czterech pierwszych filiżanek mleka i jednego dla czterech pierwszych filiżanek herbaty).

> library(Barnard)
> barnard.test(4,0,0,4)

Barnard's Unconditional Test

           Treatment I Treatment II
Outcome I            4            0
Outcome II           0            4

Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -2.82843
Nuisance parameter = 0.5 (One sided), 0.5 (Two sided)
P-value = 0.00390625 (One sided), 0.0078125 (Two sided)

> dbinom(8,8,0.5)
[1] 0.00390625

> dbinom(4,4,0.5)^2
[1] 0.00390625

Poniżej przedstawiono, w jaki sposób można by uzyskać bardziej skomplikowany wynik (jeśli nie wszystkie domysły są poprawne, np. 2 w porównaniu z 4), wówczas liczenie tego, co jest, a co nie jest ekstremalne, staje się nieco trudniejsze

(Należy również zauważyć, że w teście Barnarda, w przypadku wyniku 4-2, uciążliwy parametr p = 0,686, który można argumentować, nie jest poprawny, wartość p dla 50% prawdopodobieństwa odpowiedzi „najpierw herbata” wynosiłaby 0,08203125. Staje się jeszcze mniejszy, gdy weźmie się pod uwagę inny region, zamiast tego oparty na statystykach Walda, chociaż określenie regionu nie jest takie łatwe )

out <- rep(0,1000)
for (k in 1:1000) {
  p <- k/1000
  ps <- matrix(rep(0,25),5)   # probability for outcome i,j
  ts <- matrix(rep(0,25),5)   # distance of outcome i,j (using wald statistic)
  for (i in 0:4) {
    for (j in 0:4) {
      ps[i+1,j+1]  <- dbinom(i,4,p)*dbinom(j,4,p)
      pt <- (i+j)/8
      p1 <- i/4
      p2 <- j/4
      ts[i+1,j+1] <- (p2-p1)/sqrt(pt*(1-pt)*(0.25+0.25))
    }
  } 
  cases <- ts < ts[2+1,4+1]
  cases[1,1] = TRUE
  cases[5,5] = TRUE
  ps
  out[k] <- 1-sum(ps[cases])
}

> max(out)
[1] 0.08926748
> barnard.test(4,2,0,2)

Barnard's Unconditional Test

           Treatment I Treatment II
Outcome I            4            2
Outcome II           0            2

Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -1.63299
Nuisance parameter = 0.686 (One sided), 0.314 (Two sided)
P-value = 0.0892675 (One sided), 0.178535 (Two sided)
Sextus Empiricus
źródło