Jeśli zasada prawdopodobieństwa koliduje z częstym prawdopodobieństwem, to czy odrzucamy jedno z nich?

19

W komentarzu zamieszczonym niedawno tutaj jeden z komentatorów wskazał na bloga Larry'ego Wassermana, który wskazuje (bez żadnych źródeł), że wnioskowanie częstych jest sprzeczne z zasadą prawdopodobieństwa.

Zasada prawdopodobieństwa mówi po prostu, że eksperymenty dające podobne funkcje prawdopodobieństwa powinny dawać podobne wnioski.

Dwie części tego pytania:

  1. Które części, smak lub szkoła wnioskodawcy często naruszają zasadę prawdopodobieństwa?

  2. Jeśli dochodzi do starcia, czy musimy odrzucić jedno lub drugie? Jeśli tak, to który? Ze względu na dyskusję zasugeruję, że jeśli musimy coś odrzucić, to powinniśmy odrzucić te części częstych wniosków, które się ze sobą kolidują, ponieważ Hacking i Royall przekonali mnie, że zasada prawdopodobieństwa jest aksjomatyczna.

Michael Lew
źródło
2
Nigdy nie rozumiem, dlaczego zasada prawdopodobieństwa powinna być aksjomatem.
Stéphane Laurent,
6
Cześć, Stéphane. Problem polega na tym, że Birnbaum udowodnił, że prawdopodobieństwo jest równoważne dwóm innym zasadom, które są tak naturalne, że muszą je koniecznie obowiązywać. Napisaliśmy krótką recenzję tego wyniku. Tutaj: ime.usp.br/~pmarques/papers/redux.pdf
Zen
@ Zen Dziękuję. Na pierwszy rzut oka nie zgadzam się z tym zdaniem napisanym poniżej zasady warunkowości: „Liczy się to, co się faktycznie wydarzyło”. Zamiast tego powinienem powiedzieć: „Liczy się to, co faktycznie wydarzyło się wśród problemów, które mogły wystąpić” (przepraszam, jeśli mój angielski nie jest poprawny). Tak twierdziłem w dyskusji z gui11aume: w pewnym sensie zasada prawdopodobieństwa twierdzi, że plan eksperymentu nie ma znaczenia i nie mogę się z tym zgodzić.
Stéphane Laurent,
1
@ Zen Teraz uważniej przeczytałem twój artykuł. To prawda, że ​​trudno nie zgodzić się z zasadą warunkowości i zasadą niezmienniczości.
Stéphane Laurent,
1
LP nie jest obecnie tak popularny ze względów praktycznych. Przyjmując go religijnie, unikniesz stosowania priorów zależnych od modelu, takich jak priory Jeffreysa, priory sprzężone i testowanie hipotez, które mogą być przydatne w wielu kontekstach. Wierzę, że statystyka, tak samo jak fizyka , nie można axiomatised w sensowny sposób (choć ta dyskusja może brzmieć jak ten ). Ważne jest jednak określenie zalet i wad różnych paradygmatów.

Odpowiedzi:

12

Częścią podejścia Frequentist, które koliduje z zasadą prawdopodobieństwa, jest teoria testów statystycznych (i obliczania wartości p). Zazwyczaj jest to podkreślone w następującym przykładzie.

Załóżmy, że dwóch Frequentist chce studiować tendencyjną monetę, która obraca „głowy” z nieznaną skłonnością . Podejrzewają, że jest on tendencyjny do „ogona”, dlatego postulują tę samą hipotezę zerową i tę samą hipotezę alternatywną .s = 1 / 2 P < 1 / 2pp=1/2)p<1/2)

Pierwszy statystyk rzuca monetą, aż pojawią się „główki”, co zdarza się 6 razy. Drugi decyduje się rzucić monetą 6 razy i uzyskuje tylko jedną „główkę” w ostatnim rzucie.

Zgodnie z modelem pierwszego statystyki wartość p oblicza się w następujący sposób:

p(1-p)5+p(1-p)6+...=p(1-p)511-p=p(1-p)4.

Zgodnie z modelem drugiego statystyki wartość p oblicza się w następujący sposób:

(61)p(1-p)5+(60)(1-p)6=(5p+1)(1-p)5.

Zastępując przez , pierwszy znajduje wartość p równą , a drugi znajduje wartość p równą .1 / 2 1 / 2 5 = 0,03125 7 / 2 x 1 / 2 5 = 0,109375p1/2)1/2)5=0,031257/2)×1/2)5=0,109375

Otrzymują różne wyniki, ponieważ robili różne rzeczy, prawda? Ale zgodnie z zasadą prawdopodobieństwa powinni dojść do tego samego wniosku. W skrócie, zasada prawdopodobieństwa mówi, że prawdopodobieństwo jest wszystkim, co jest ważne dla wnioskowania. Tak więc kolizja wynika z faktu, że obie obserwacje mają takie samo prawdopodobieństwo, proporcjonalne do (prawdopodobieństwo określa się do stałej proporcjonalności).p(1-p)5

O ile mi wiadomo, odpowiedź na twoje drugie pytanie jest raczej debatowaną opinią. Osobiście staram się unikać wykonywania testów i obliczania wartości p z powyższego powodu, a dla innych wyjaśnionych w tym poście na blogu .

EDYCJA: Teraz, gdy o tym myślę, oszacowania według przedziałów ufności również by się różniły. W rzeczywistości, jeśli modele są różne, CI różnią się budową.p

gui11aume
źródło
1
Mam wrażenie, że zasada prawdopodobieństwa jest oczywiście naruszana w statystyce częstokroć (testowanie hipotez, przedziały ufności), ponieważ uwzględniamy prawdopodobieństwo każdego możliwego wyniku, a nie tylko prawdopodobieństwo oparte na rzeczywistym wyniku. Dobrze ?
Stéphane Laurent,
@ Stéphane Laurent tak, tak też to rozumiem. James Berger ma ładny cytat w statystycznej teorii decyzji i analizie bayesowskiej , która mówi, że Frequentist czasami odrzuca hipotezę z powodu danych, których nigdy nie zaobserwowano (brzmi to lepiej, ale nie pamiętam).
gui11aume
Dzięki, gui11aume. Czy mam rację, interpretując to jako przykład, w którym „znaczenie” wartości P zmienia się w zależności od intencji eksperymentatora? Zakładam, że tak jest w przypadku, gdy wartości P są interpretowane jako rodzaj progowej fałszywie dodatniej stopy błędów, ponieważ musiałyby one być równomiernie rozłożone w ramach hipotezy zerowej? Czy jest to potrzebne w podejściu Fishera, w którym wartości P są przedstawiane jako wskaźniki siły dowodów?
Michael Lew
4
(+1) Tego rodzaju rozbieżności pojawiają się zwykle, gdy w jednym z modeli występuje reguła zatrzymania .
1
@Scortchi Właściwie błędnie pomyślałem, że jedna z wartości P wskazuje na prawidłową funkcję prawdopodobieństwa, a druga nie: oba wskazują na tę samą funkcję wiarygodności, która przedstawia dowody istotne dla prawdopodobieństwa głów. Powinieneś zignorować dwa ostatnie zdania mojego poprzedniego komentarza. (Nie mogę go edytować, prawda?)
Michael Lew
4

Podobał mi się przykład autorstwa @ gui11aume (+1), ale może sprawiać wrażenie, że różnica w dwóch wartościach powstaje tylko z powodu różnych reguł zatrzymania stosowanych przez dwóch eksperymentatorów.p

W rzeczywistości uważam, że jest to znacznie bardziej ogólne zjawisko. Zastanów się nad drugim eksperymentatorem w odpowiedzi @ gui11aume: tym, który rzuca monetą sześć razy i obserwuje głowy tylko w ostatnim rzucie. Wyniki wyglądają tak: jaka jest wartość ? Typowym podejściem byłoby obliczenie prawdopodobieństwa, że ​​uczciwa moneta spowoduje jedną lub mniej głów. Istnieje możliwości na ogół z jedną lub kilkoma głowicami, stąd .s 7 64 P = 7 / 64 0,109

T.T.T.T.T.H.,
p764p=7/640,1099

Ale dlaczego nie wziąć kolejnej statystyki testowej ? Na przykład w tym eksperymencie zaobserwowaliśmy pięć ogonów z rzędu. Jako statystykę testową weźmy długość najdłuższej sekwencji ogonów. Istnieją możliwości z pięcioma lub sześcioma ogonami z rzędu, stąd .p = 3 / 64 0,0473)p=3)/640,047

Jeśli więc w tym przypadku poziom błędu został ustalony na , to wybór statystyki testowej może łatwo uczynić wyniki znaczącymi lub nieistotnymi, a to nie ma nic wspólnego z regułami zatrzymania per se .α=0,05


Część spekulacyjna

Teraz, filozoficznie, powiedziałbym, że częsty wybór statystyki testowej jest w pewnym sensie podobny do bayesowskiego wyboru wcześniejszego. Wybieramy tę lub inną statystykę testową, ponieważ uważamy, że nieuczciwa moneta zachowa się w ten lub inny sposób (i chcemy mieć moc wykrywającą to zachowanie). Czy nie jest to podobne do nakładania na typy monet?

Jeśli tak, to zasada prawdopodobieństwa mówiąca, że ​​wszystkie dowody są w prawdopodobieństwie, nie koliduje z wartościami , ponieważ wartość jest wtedy nie tylko „ilością dowodów”. To „miara zaskoczenia”, ale coś może być miarą zaskoczenia, jeśli uwzględni to, co byśmy byli zaskoczeni! Wartość próbuje połączyć w jednej skalarnej ilości zarówno dowody, jak i pewnego rodzaju wcześniejsze oczekiwania (jak przedstawiono przy wyborze statystyki testowej). Jeśli tak, to nie należy go porównywać z samym prawdopodobieństwem, a może raczej z późniejszym?p pppp

Byłbym bardzo zainteresowany, aby usłyszeć opinie na temat tej części spekulacyjnej, tutaj lub na czacie.


Zaktualizuj po dyskusji z @MichaelLew

Obawiam się, że mój powyższy przykład nie trafił w sedno tej debaty. Wybór innej statystyki testowej prowadzi również do zmiany funkcji prawdopodobieństwa. Tak więc dwie różne wyliczone powyżej wartości odpowiadają dwóm różnym funkcjom prawdopodobieństwa, a zatem nie mogą być przykładem „zderzenia” zasady prawdopodobieństwa z wartościami . Piękno przykładu @ gui11aume polega na tym, że funkcja prawdopodobieństwa pozostaje dokładnie taka sama, mimo że wartości różnią się.p pppp

Nadal muszę pomyśleć, co to oznacza dla mojej „spekulacyjnej” części powyżej.

ameba mówi Przywróć Monikę
źródło
Ciekawe myśli Tak, zgadzam się, że nie będzie konfliktu między wartościami LP i P, o ile wartości P nie będą interpretowane jako dowody w taki sam sposób, jak funkcja prawdopodobieństwa. Funkcja wiarygodności zawiera dowody istotne dla parametru będącego przedmiotem zainteresowania, biorąc pod uwagę model statystyczny . Kiedy zmieniasz statystykę testu, zmieniasz model, więc funkcja wiarygodności dla twojego alternatywnego modelu będzie (cóż, może) różnić się od funkcji wiarygodności dla oryginału.
Michael Lew
Michael, nie jestem pewien, co dokładnie „model statystyczny” oznacza, ale nie jest moneta z głowy prawdopodobieństwa już modelką? W jaki sposób zmiana statystyki testowej zmienia model? p
ameba mówi Przywróć Monikę
Poza tym znalazłem to pytanie, ponieważ ponownie przeczytałem twój artykuł „Do P lub nie do P” (i przejrzałem „zasadę prawdopodobieństwa”). Ogólnie podoba mi się ten artykuł, ale całkowicie pomieszałem go w punkcie 4.4. Piszesz, że wartości p nie należy „dostosowywać”, biorąc pod uwagę reguły zatrzymywania; ale nie widzę żadnych korekt we wzorach 5-6. Jakie byłyby „nieskorygowane” wartości p? Czy masz na myśli, że jeden z nich jest dostosowany, a drugi nie? Jeśli tak, to który i dlaczego nie odwrotnie?
ameba mówi Przywróć Monikę
Model statystyczny jest często ignorowany lub milcząco zakłada się, że jest niezmienny. Jednak w przypadku monet zawiera ustalone nieznane prawdopodobieństwo głów, losowy dobór obserwacji, a dla statystyki testu główki poza próbami dwumianowy rozkład możliwych wyników. Nie wiem, jaki jest rozkład wyników dla ogonów w testach rzędu, ale podejrzewam, że jest inaczej. Nawet jeśli jest taki sam, model z twoją statystyką testową nie jest tym samym modelem co oryginał, a zatem funkcja prawdopodobieństwa może być inna, mimo że zawiera wszystkie dowody.
Michael Lew
Prawie skończyłem całkowitą przeróbkę tego papieru. Jest to istotne dla tej dyskusji, ale nie jest jeszcze gotowe do przesłania. (Czy to czat?)
Michael Lew