Bayesowska książka Kruschkego mówi o zastosowaniu dystrybucji beta do rzutu monetą,
Na przykład, jeśli nie mamy wcześniejszej wiedzy innej niż wiedza, że moneta ma stronę głowy i stronę ogona, jest to równoznaczne z wcześniejszym zaobserwowaniem jednej głowy i jednego ogona, co odpowiada a = 1 i b = 1.
Dlaczego żadna informacja nie byłaby równoznaczna z obejrzeniem jednej głowy i jednego ogona - 0 głów i 0 ogonów wydaje mi się bardziej naturalne.
probability
bayesian
beta-distribution
Hatszepsut
źródło
źródło
Odpowiedzi:
Cytat jest „logicznym sztuczką ręki” (świetne wyrażenie!), Jak zauważył @whuber w komentarzach do PO. Jedyne, co możemy naprawdę powiedzieć po zobaczeniu, że moneta ma głowę i ogon, to to, że zarówno zdarzenia „głowa”, jak i „ogon” nie są niemożliwe. W ten sposób moglibyśmy odrzucić dyskretny pierwszeństwo, które przypisuje całą masę prawdopodobieństwa „głowie” lub „ogonowi”. Ale to samo w sobie nie prowadzi do munduru przełożonego: pytanie jest znacznie bardziej subtelne. Przede wszystkim podsumujmy trochę tła. Rozważamy model sprzężony Beta-Binominal dla wnioskowania Bayesa o prawdopodobieństwie głów monety, biorąc pod uwagę niezależnych i identycznie rozmieszczonych (warunkowo na ) rzutów monetą.θ n θ p(θ|x) gdy obserwujemy głowy w rzutach:x n
możemy powiedzieć, że i odgrywają rolę „wcześniejszej liczby głów” i „wcześniejszej liczby ogonów” (pseudotriali), a można interpretować jako efektywną wielkość próby. Do tej interpretacji moglibyśmy również dojść przy użyciu dobrze znanego wyrażenia średniej tylnej jako średniej ważonej wcześniejszej średniej i średniej próbki .α β α+β αα+β xn
Patrząc na , możemy dokonać dwóch rozważań:p(θ|x)
Ponieważ jest średnią wcześniejszą i nie mamy wcześniejszej wiedzy na temat rozkładu , spodziewalibyśmy się, że . To argument symetrii - jeśli nie wiemy nic lepszego, nie spodziewalibyśmy się z góry, że rozkład jest przesunięty w kierunku 0 lub w kierunku 1. Rozkład Beta jestμprior=αα+β θ μprior=0.5
To wyrażenie jest symetryczne tylko wokół jeśli .θ=0.5 α=β
Z tych dwóch powodów, niezależnie od tego, co wcześniej (należące do rodziny Beta - pamiętaj, model sprzężony!), Którego zdecydujemy się użyć, intuicyjnie oczekujemy, że i jest „małe”. Widzimy, że wszystkie trzy powszechnie stosowane nieinformacyjne priory dla modelu beta-dwumianowego mają te same cechy, ale poza tym są one całkiem różne. I to jest oczywiste: brak wcześniejszej wiedzy lub „maksymalnej niewiedzy” nie jest naukową definicją, więc jaki rodzaj uprzedniego wyrażenia „maksymalnej niewiedzy”, tj. Tego, co nie jest informacyjnym przełożeniem, zależy od tego, co faktycznie rozumiesz jako „maksimum ignorancja".α=β=c c
moglibyśmy wybrać przeor, który mówi, że wszystkie wartości dla są równoważne, ponieważ nie wiemy nic lepszego. Ponownie argument symetrii. Odpowiada to :θ α=β=1
dla , tj. mundur wcześniej używany przez Kruschke. Bardziej formalnie, pisząc wyrażenie dla entropii różnicowej rozkładu Beta, można zauważyć, że jest ono zmaksymalizowane, gdy . Teraz entropię często interpretuje się jako miarę „ilości informacji” przenoszonej przez rozkład: wyższa entropia odpowiada mniejszej ilości informacji. Zatem można użyć tej zasady maksymalnej entropii, aby powiedzieć, że w rodzinie Beta, przeor, który zawiera mniej informacji (maksymalna ignorancja), jest tym samym przełożonym.θ∈[0,1] α=β=1
Możesz wybrać inny punkt widzenia, ten używany przez PO, i powiedzieć, że żadna informacja nie dotyczy braku głów i ogona, tj.
Przeor, który otrzymujemy w ten sposób, nazywa się przeorem Haldane . Funkcja ma mały problem - całka nad jest nieskończona, tzn. Bez względu na stałą normalizującą, nie może być przekształcony w odpowiedni pdf. W rzeczywistości wcześniejszy Haldane jest właściwym pmf , co stawia prawdopodobieństwo 0,5 na , 0,5 na i 0 prawdopodobieństwa na wszystkich innych wartościach dla . Nie dajmy się jednak ponieść emocjom - dla ciągłego parametru , priory, które nie odpowiadają właściwemu pdf, nazywane są niewłaściwymi priorsθ−1(1−θ)−1 I=[0,1] θ=0 θ=1 θ θ . Ponieważ, jak wspomniano wcześniej, wszystko, co ma znaczenie dla wnioskowania bayesowskiego, to rozkład a posteriori, niedopuszczalne pierwszeństwo jest dopuszczalne, o ile rozkład ten jest właściwy. W przypadku przeora Haldane'a możemy udowodnić, że tylny pdf jest poprawny, jeśli nasza próbka zawiera co najmniej jeden sukces i jedną porażkę. Dlatego możemy użyć Haldane wcześniej tylko wtedy, gdy obserwujemy co najmniej jedną głowę i jeden ogon.
Jest jeszcze inny sens, w którym przeora Haldane'a można uznać za nieinformacyjny: średnia rozkładu z tyłu jest teraz , tj. częstotliwość próbkowania głów, która jest częstym oszacowaniem MLE wartości dla dwumianowego modelu problemu zrzucania monet. Również wiarygodne przedziały dla odpowiadają przedziałom ufności Wald. Ponieważ metody częstokrzyskie nie określają przeora, można powiedzieć, że przeor Haldane jest nieinformacyjny lub odpowiada zerowej wcześniejszej wiedzy, ponieważ prowadzi do „tej samej” wniosku, którą mógłby zrobić częsty.α+xα+β+n=xn θ θ
Na koniec możesz użyć przeora, który nie zależy od parametryzacji problemu, tj. Przeora Jeffreysa, który dla modelu Beta-Dwumianowego odpowiada
a zatem przy efektywnej wielkości próbki wynoszącej 1. Zaliczka Jeffreysa ma tę zaletę, że jest niezmienna przy reparametryzacji przestrzeni parametrów. Na przykład jednolity wcześniejszy przypisuje równe prawdopodobieństwo do wszystkich wartości , prawdopodobieństwo zdarzenia „głowa”. Możesz jednak sparametryzować ten model w kategoriach log-odds zdarzenia „head”, zamiast . Jaki wcześniejszy wyraz wyraża „maksymalną niewiedzę” w kategoriach logarytmicznych szans, tj. Który mówi, że wszystkie możliwe logarytmiczne szanse dla „głowy” zdarzenia są możliwe do uzyskania? To przeor Haldane, jak pokazano w tej (nieco tajemniczej) odpowiedziθ λ=log(θ1−θ) θ . Zamiast tego Jeffreys jest niezmienny we wszystkich zmianach metrycznych. Jeffreys stwierdził, że przeor, który nie ma tej właściwości, jest w pewien sposób pouczający, ponieważ zawiera informacje o metrykach użytych do parametryzacji problemu. Jego przeor nie.
Podsumowując, w modelu Beta-dwumianowym nie ma tylko jednego jednoznacznego wyboru dla nieinformacyjnego przeora. To, co wybierzesz, zależy od tego, co rozumiesz jako zero wcześniejszej wiedzy i od celów Twojej analizy.
źródło
To jest oczywiście niepoprawne. Obserwacja 1 głów i 1 ogonów oznacza, że (nie można mieć monety wszystkich głów), a (niemożliwe jest posiadanie monety wszystkich ogonów). Jednolity rozkład nie jest z tym zgodny. To, co jest spójne, to Beta (2,2). Od rozwiązania bayesowskiego do problemu rzutu monetą za pomocą Laplace'a (tj. Jednolitego) przed , prawdopodobieństwo późniejsze wynosi .p(θ=0)=0 p(θ=1)=0 θ p(θ)=Beta(h+1,(N−h)+1)
źródło