Powiedzmy, że wielokrotnie rzucamy uczciwą monetą i wiemy, że liczba głów i ogonów powinna być w przybliżeniu równa. Kiedy widzimy wynik 10 głów i 10 ogonów w sumie 20 rzutów, wierzymy w wyniki i jesteśmy skłonni wierzyć, że moneta jest uczciwa.
Cóż, gdy zobaczysz wynik taki jak 10000 głów i 10000 ogonów w sumie 20000 rzutów, faktycznie kwestionowałbym ważność wyniku (czy eksperymentator sfałszował dane), ponieważ wiem, że jest to bardziej prawdopodobne niż, powiedzmy, wynik 10093 głów i 9907 ogonów.
Jaki jest statystyczny argument mojej intuicji?
źródło
Lubię wyjaśnienia Srikanta i myślę, że idea bayesowska jest prawdopodobnie najlepszym sposobem na rozwiązanie takiego problemu. Ale jest inny sposób, aby zobaczyć to bez Bayesa: (w R)
czyli około 31,2 w moim systemie. Innymi słowy, jest ponad 30 razy bardziej prawdopodobne, że zobaczy 10 na 20 niż 10 000 na 20 000, nawet w obu przypadkach z uczciwą monetą. Ten stosunek zwiększa się bez ograniczeń wraz ze wzrostem wielkości próbki.
Jest to rodzaj podejścia opartego na ilorazie prawdopodobieństwa, ale znowu, wydaje mi się, że brzmi to jak wyrok Bayesa bardziej niż cokolwiek innego.
źródło
Subiektywistyczna Bayesa argument jest praktycznie jedynym sposobem (z punktu widzenia statystycznego) można przejść o zrozumienie swoją intuicję , która jest - właściwie mówiąc - przedmiot z psychologicznego dochodzenia, a nie jednego statystycznego. Jednak stosowanie zasady bayesowskiej w celu argumentowania, że śledczy sfałszował dane, jest oczywiście niesprawiedliwe - a zatem nieważne - Logika ta jest idealnie okrągły: sprowadza się do stwierdzenia „na podstawie moich wcześniejszych przekonań o wynikach, znajdę swoją wynik niewiarygodny, i dlatego musi być oszukany.” Taki nielogiczny samolubny argument oczywiście nie stanąłby w sądzie lub w procesie wzajemnej oceny.
Zamiast tego możemy wyciągnąć wskazówkę z krytyki eksperymentów Mendla przez Ronalda Fishera i przeprowadzić formalny test hipotezy. Oczywiście nie można testować hipotezy post hoc na podstawie wyniku. Ale należy uwierzyć, że eksperymenty należy powtórzyć: to zasada naukowej metody. Widząc jeden wynik, który naszym zdaniem mógł zostać sfałszowany, możemy sformułować odpowiednią hipotezę, aby przetestować przyszłe (lub dodatkowe) wyniki. W tym przypadku region krytyczny obejmowałby zestaw wyników bardzo zbliżonych do oczekiwań. Na przykład test naα = Poziom 5% uznałby każdy wynik między 9996 a 10,004 za podejrzany, ponieważ (a) ta kolekcja jest zbliżona do naszych hipotetycznych wyników „sfałszowanych” i (b) pod zerową hipotezą braku udawania (niewinny, dopóki nie zostanie udowodniony winny w sądzie!) , wynik w tym zakresie ma tylko 5% (właściwie 5,07426%) szansy wystąpienia. Co więcej, możemy z pozoru podejść ad hoc w kontekście chi-kwadrat (a la Fisher), po prostu wyrównywanie odchylenia między obserwowaną proporcją a oczekiwaną proporcją, a następnie przywołanie lematu Neymana-Pearsona w jednostronnym teście na niski ogon i zastosowanie normalnego przybliżenia do rozkładu dwumianowego .
Chociaż taki test nie może udowodnić fałszywości, można go zastosować do przyszłych raportów tego eksperymentatora, aby ocenić wiarygodność ich twierdzeń, bez dokonywania nieprzewidzianych i niemożliwych do przyjęcia założeń na podstawie samej intuicji. Jest to o wiele bardziej sprawiedliwe i rygorystyczne niż powoływanie się na argument Bayesa, aby sugerować kogoś, kto może być całkowicie niewinny i po prostu okazał się tak nieszczęśliwy, że uzyskał piękny wynik eksperymentalny!
źródło
Myślę, że twoja intuicja jest wadliwa. Wygląda na to, że domyślnie porównujesz pojedynczy „bardzo specjalny” wynik (dokładnie 10000 głów) z zestawem wielu wyników (wszystkie „niespecjalne” liczby głów zbliżone do 10000). Jednak definicja „specjalnego” jest arbitralnym wyborem opartym na naszej psychologii. A może binarny 10000000000000 (dziesiętny 8192) lub Hex ABC (dziesiętny 2748) - czy byłoby to również podejrzanie wyjątkowe? Jak zauważył Joris Meys, argument Bayesa byłby zasadniczo taki sam dla każdej pojedynczej liczby głów, co oznaczałoby, że każdy wynik byłby podejrzany.
Aby nieco rozszerzyć argument: chcesz przetestować hipotezę („eksperymentator jest fałszywy”), a następnie wybrać statystyki testowe (liczba głów). Czy ta statystyka testowa nadaje się do powiedzenia ci czegoś o twojej hipotezie? Wydaje mi się, że wybrana statystyka testowa nie ma charakteru informacyjnego (nie jest funkcją parametru określonego jako stała wartość w hipotezie). To wraca do pytania, co rozumiesz przez „oszukiwanie”. Jeśli to oznacza, że eksperymentator kontroluje monetę do woli, nie znajduje to odzwierciedlenia w statystykach testu. Myślę, że musisz być bardziej precyzyjny, aby znaleźć kwantyfikowalny wskaźnik, a tym samym sprawić, by pytanie podlegało testowi statystycznemu.
źródło
Wyciągnięty wniosek będzie BARDZO zależny od wcześniejszego wyboru prawdopodobieństwa oszustwa i wcześniejszego prawdopodobieństwa, że biorąc pod uwagę płetwę, x głowy są zgłaszane.
Nałożenie największej masy na P (10000 głów zgłoszonych | leżących) jest moim zdaniem nieco sprzeczne z intuicją. O ile reporter nie jest naiwny, nie wyobrażam sobie, aby ktokolwiek zgłaszał takie sfałszowane dane (głównie z powodów, o których wspomniałeś w oryginalnym poście; jest to zbyt podejrzane dla większości osób). Jeśli moneta naprawdę jest niesprawiedliwa, a płetwa ma się zgłosić sfałszowane dane, więc myślę, że bardziej rozsądnym (i bardzo przybliżonym) wyprzedzeniem podanych wyników może być dyskretny jednolity przed P (X głów zgłoszonych | leżących) = 1/201 dla liczb całkowitych {9900, ..., 10100} i P (x zgłoszonych głów | leżących) = 0 dla wszystkich pozostałych x. Załóżmy, że uważasz, że wcześniejsze prawdopodobieństwo kłamstwa wynosi 0,5. Zatem niektóre późniejsze prawdopodobieństwa to:
P (leżące | 9900 głów zgłoszonych) = P (leżące | 10100 głów zgłoszonych) = 0,70;
P (leżące | 9950 głów zgłoszonych) = P (leżące | 10050 głów zgłoszonych) = 0,54;
P (leżące | 10000 zgłoszonych głów) = 0,47.
Najbardziej rozsądna liczba zgłoszonych głów z uczciwej monety spowoduje podejrzenie. Aby pokazać, jak wrażliwe są prawdopodobieństwa a posteriori na twoje priorytety, jeśli wcześniejsze prawdopodobieństwo oszustwa zostanie obniżone do 0,10, to prawdopodobieństwa a posteriori stają się:
P (leżące | 9900 głów zgłoszonych) = P (leżące | 10100 głów zgłoszonych) = 0,21;
P (leżące | 9950 głów zgłoszonych) = P (leżące | 10050 głów zgłoszonych) = 0,11;
P (leżące | 10000 zgłoszonych głów) = 0,09.
Myślę więc, że oryginalną (i wysoko ocenianą odpowiedź) można nieco rozszerzyć; w żaden sposób nie należy uznawać, że dane są sfałszowane bez dokładnego rozważenia wcześniejszych informacji. Poza tym, myśląc o tym intuicyjnie, wydaje się, że na późniejsze prawdopodobieństwo leżenia bardziej wpłynie raczej wcześniejsze prawdopodobieństwo leżenia niż wcześniejszy rozkład głów, biorąc pod uwagę, że płetwa kłamie (z wyjątkiem przełożonych, którzy kładą wszystko ich masa na małej liczbie głów zgłoszona, biorąc pod uwagę, że płetwa leży, tak jak w moim przykładzie).
źródło
Dla wyjaśnienia bayesowskiego potrzebujesz wcześniejszego rozkładu prawdopodobieństwa na zgłoszonych wynikach przez leżącą monetę, a także wcześniejszego prawdopodobieństwa kłamstwa. Kiedy zobaczysz wartość, która jest znacznie bardziej prawdopodobna pod rozkładem leżenia niż przypadkowa, odwraca, to zwiększa twoje prawdopodobieństwo leżenia z tyłu.
źródło