W komentarzu zamieszczonym niedawno tutaj jeden z komentatorów wskazał na bloga Larry'ego Wassermana, który wskazuje (bez żadnych źródeł), że wnioskowanie częstych jest sprzeczne z zasadą prawdopodobieństwa.
Zasada prawdopodobieństwa mówi po prostu, że eksperymenty dające podobne funkcje prawdopodobieństwa powinny dawać podobne wnioski.
Dwie części tego pytania:
Które części, smak lub szkoła wnioskodawcy często naruszają zasadę prawdopodobieństwa?
Jeśli dochodzi do starcia, czy musimy odrzucić jedno lub drugie? Jeśli tak, to który? Ze względu na dyskusję zasugeruję, że jeśli musimy coś odrzucić, to powinniśmy odrzucić te części częstych wniosków, które się ze sobą kolidują, ponieważ Hacking i Royall przekonali mnie, że zasada prawdopodobieństwa jest aksjomatyczna.
źródło
Odpowiedzi:
Częścią podejścia Frequentist, które koliduje z zasadą prawdopodobieństwa, jest teoria testów statystycznych (i obliczania wartości p). Zazwyczaj jest to podkreślone w następującym przykładzie.
Załóżmy, że dwóch Frequentist chce studiować tendencyjną monetę, która obraca „głowy” z nieznaną skłonnością . Podejrzewają, że jest on tendencyjny do „ogona”, dlatego postulują tę samą hipotezę zerową i tę samą hipotezę alternatywną .s = 1 / 2 P < 1 / 2p p = 1 / 2 P < 1 / 2
Pierwszy statystyk rzuca monetą, aż pojawią się „główki”, co zdarza się 6 razy. Drugi decyduje się rzucić monetą 6 razy i uzyskuje tylko jedną „główkę” w ostatnim rzucie.
Zgodnie z modelem pierwszego statystyki wartość p oblicza się w następujący sposób:
Zgodnie z modelem drugiego statystyki wartość p oblicza się w następujący sposób:
Zastępując przez , pierwszy znajduje wartość p równą , a drugi znajduje wartość p równą .1 / 2 1 / 2 5 = 0,03125 7 / 2 x 1 / 2 5 = 0,109375p 1 / 2 1 / 25= 0,03125 7 / 2 x 1 / 25= 0,109375
Otrzymują różne wyniki, ponieważ robili różne rzeczy, prawda? Ale zgodnie z zasadą prawdopodobieństwa powinni dojść do tego samego wniosku. W skrócie, zasada prawdopodobieństwa mówi, że prawdopodobieństwo jest wszystkim, co jest ważne dla wnioskowania. Tak więc kolizja wynika z faktu, że obie obserwacje mają takie samo prawdopodobieństwo, proporcjonalne do (prawdopodobieństwo określa się do stałej proporcjonalności).p ( 1 - p )5
O ile mi wiadomo, odpowiedź na twoje drugie pytanie jest raczej debatowaną opinią. Osobiście staram się unikać wykonywania testów i obliczania wartości p z powyższego powodu, a dla innych wyjaśnionych w tym poście na blogu .
EDYCJA: Teraz, gdy o tym myślę, oszacowania według przedziałów ufności również by się różniły. W rzeczywistości, jeśli modele są różne, CI różnią się budową.p
źródło
Podobał mi się przykład autorstwa @ gui11aume (+1), ale może sprawiać wrażenie, że różnica w dwóch wartościach powstaje tylko z powodu różnych reguł zatrzymania stosowanych przez dwóch eksperymentatorów.p
W rzeczywistości uważam, że jest to znacznie bardziej ogólne zjawisko. Zastanów się nad drugim eksperymentatorem w odpowiedzi @ gui11aume: tym, który rzuca monetą sześć razy i obserwuje głowy tylko w ostatnim rzucie. Wyniki wyglądają tak: jaka jest wartość ? Typowym podejściem byłoby obliczenie prawdopodobieństwa, że uczciwa moneta spowoduje jedną lub mniej głów. Istnieje możliwości na ogół z jedną lub kilkoma głowicami, stąd .s 7 64 P = 7 / 64 ≈ 0,109
Ale dlaczego nie wziąć kolejnej statystyki testowej ? Na przykład w tym eksperymencie zaobserwowaliśmy pięć ogonów z rzędu. Jako statystykę testową weźmy długość najdłuższej sekwencji ogonów. Istnieją możliwości z pięcioma lub sześcioma ogonami z rzędu, stąd .p = 3 / 64 ≈ 0,0473) p = 3 / 64 ≈ 0,047
Jeśli więc w tym przypadku poziom błędu został ustalony na , to wybór statystyki testowej może łatwo uczynić wyniki znaczącymi lub nieistotnymi, a to nie ma nic wspólnego z regułami zatrzymania per se .α = 0,05
Część spekulacyjna
Teraz, filozoficznie, powiedziałbym, że częsty wybór statystyki testowej jest w pewnym sensie podobny do bayesowskiego wyboru wcześniejszego. Wybieramy tę lub inną statystykę testową, ponieważ uważamy, że nieuczciwa moneta zachowa się w ten lub inny sposób (i chcemy mieć moc wykrywającą to zachowanie). Czy nie jest to podobne do nakładania na typy monet?
Jeśli tak, to zasada prawdopodobieństwa mówiąca, że wszystkie dowody są w prawdopodobieństwie, nie koliduje z wartościami , ponieważ wartość jest wtedy nie tylko „ilością dowodów”. To „miara zaskoczenia”, ale coś może być miarą zaskoczenia, jeśli uwzględni to, co byśmy byli zaskoczeni! Wartość próbuje połączyć w jednej skalarnej ilości zarówno dowody, jak i pewnego rodzaju wcześniejsze oczekiwania (jak przedstawiono przy wyborze statystyki testowej). Jeśli tak, to nie należy go porównywać z samym prawdopodobieństwem, a może raczej z późniejszym?p pp p p
Byłbym bardzo zainteresowany, aby usłyszeć opinie na temat tej części spekulacyjnej, tutaj lub na czacie.
Zaktualizuj po dyskusji z @MichaelLew
Obawiam się, że mój powyższy przykład nie trafił w sedno tej debaty. Wybór innej statystyki testowej prowadzi również do zmiany funkcji prawdopodobieństwa. Tak więc dwie różne wyliczone powyżej wartości odpowiadają dwóm różnym funkcjom prawdopodobieństwa, a zatem nie mogą być przykładem „zderzenia” zasady prawdopodobieństwa z wartościami . Piękno przykładu @ gui11aume polega na tym, że funkcja prawdopodobieństwa pozostaje dokładnie taka sama, mimo że wartości różnią się.p pp p p
Nadal muszę pomyśleć, co to oznacza dla mojej „spekulacyjnej” części powyżej.
źródło