W słynnym eksperymencie z próbowaniem herbaty przez RA Fishera dama jest informowana o tym, ile jest filiżanek z mlekiem / z herbatą (4 na 8 filiżanek). Jest to zgodne z ustalonym marginalnym całkowitym założeniem dokładnego testu Fishera.
Wyobraziłam sobie, że przeprowadzę ten test z przyjacielem, ale ta myśl mnie uderzyła. Jeśli kobieta naprawdę potrafi odróżnić kubki z mlekiem od herbaty i filiżanki z herbatą, powinna być w stanie obliczyć krańcowe wartości filiżanek z mlekiem z mlekiem / z herbatą, a także które z nich.
Oto pytanie: jakiego testu można by użyć, gdyby RA Fisher nie poinformował kobiety o całkowitej liczbie filiżanek z mlekiem i herbaty?
Odpowiedzi:
Niektórzy twierdzą, że nawet jeśli drugi margines nie jest ustalony z założenia, niesie niewiele informacji o zdolności kobiety do dyskryminacji (tj. Jest w przybliżeniu pomocniczy) i powinien być uzależniony. Dokładny bezwarunkowy test (po raz pierwszy zaproponowany przez Barnarda ) jest bardziej skomplikowany, ponieważ musisz obliczyć maksymalną wartość p dla wszystkich możliwych wartości parametru uciążliwego, a mianowicie wspólnego prawdopodobieństwa Bernoulliego w ramach hipotezy zerowej. Niedawno zaproponowano maksymalizację wartości p w przedziale ufności dla parametru uciążliwości: patrz Berger (1996), „Bardziej zaawansowane testy z przedziału ufności p Wartości”, The American Statistician , 50 , 4; przy pomocy tego pomysłu można skonstruować dokładne testy o właściwym rozmiarze.
Dokładny test Fishera powstaje również jako test losowy, w sensie Edgingtona: losowe przypisanie eksperymentalnych zabiegów pozwala na rozłożenie statystyki testowej na permutacje tych przypisań w celu przetestowania hipotezy zerowej. W tym podejściu ustalenia pani są uważane za ustalone (a marginalna suma filiżanek z mlekiem i z herbatą jest oczywiście zachowana przez permutację).
źródło
Barnard::barnardw.test()
tu zastosować? Jakiej różnicy w złożoności obliczeniowej można się spodziewać w praktyce?Exact
. Jeśli chodzi o złożoność obliczeniową, nie wiem - będzie to zależeć od zastosowanego algorytmu maksymalizacji.Dzisiaj przeczytałem pierwsze rozdziały „Projektu eksperymentów” RA Fishera, a jeden z akapitów uświadomił mi podstawową wadę mojego pytania.
Oznacza to, że nawet jeśli dama naprawdę potrafi odróżnić kubki z mlekiem od herbaty z mlekiem , nigdy nie mogę udowodnić, że ma tę zdolność „na podstawie dowolnej ilości eksperymentów”. Z tego powodu jako eksperymentator powinienem zacząć od założenia, że nie ma zdolności (hipoteza zerowa) i spróbować ją odrzucić. Oryginalny plan eksperymentu (dokładny test Fishera) jest wystarczającą, wydajną i uzasadnioną procedurą do tego.
Oto fragment „Projektu eksperymentów” RA Fishera:
źródło
Test Barnarda jest stosowany, gdy parametr uciążliwości jest nieznany w ramach hipotezy zerowej.
Jednak w teście degustacji dam można argumentować, że parametr uciążliwości można ustawić na 0,5 w ramach hipotezy zerowej (prawdopodobieństwo, że niedoinformowana dama ma 50% prawdopodobieństwa prawidłowego odgadnięcia filiżanki).
Następnie liczba poprawnych domysłów, zgodnie z hipotezą zerową, staje się rozkładem dwumianowym: zgadywanie 8 filiżanek z 50% prawdopodobieństwem dla każdej filiżanki.
W innych przypadkach możesz nie mieć tego trywialnego 50% prawdopodobieństwa dla hipotezy zerowej. I bez ustalonych marginesów możesz nie wiedzieć, jakie powinno być to prawdopodobieństwo. W takim przypadku potrzebujesz testu Barnarda.
Nawet jeśli wykonałbyś test Barnarda na teście herbaty dla kobiet smakujących, i tak stałby się 50% (jeśli wynik jest prawidłowy), ponieważ uciążliwy parametr o najwyższej wartości p wynosi 0,5 i dałby trywialny test dwumianowy ( w rzeczywistości jest to połączenie dwóch testów dwumianowych: jednego dla czterech pierwszych filiżanek mleka i jednego dla czterech pierwszych filiżanek herbaty).
Poniżej przedstawiono, w jaki sposób można by uzyskać bardziej skomplikowany wynik (jeśli nie wszystkie domysły są poprawne, np. 2 w porównaniu z 4), wówczas liczenie tego, co jest, a co nie jest ekstremalne, staje się nieco trudniejsze
(Należy również zauważyć, że w teście Barnarda, w przypadku wyniku 4-2, uciążliwy parametr p = 0,686, który można argumentować, nie jest poprawny, wartość p dla 50% prawdopodobieństwa odpowiedzi „najpierw herbata” wynosiłaby 0,08203125. Staje się jeszcze mniejszy, gdy weźmie się pod uwagę inny region, zamiast tego oparty na statystykach Walda, chociaż określenie regionu nie jest takie łatwe )
źródło