Dystrybucja beta po rzucie monetą

Bayesowska książka Kruschkego mówi o zastosowaniu dystrybucji beta do rzutu monetą,

Na przykład, jeśli nie mamy wcześniejszej wiedzy innej niż wiedza, że moneta ma stronę głowy i stronę ogona, jest to równoznaczne z wcześniejszym zaobserwowaniem jednej głowy i jednego ogona, co odpowiada a = 1 i b = 1.

Dlaczego żadna informacja nie byłaby równoznaczna z obejrzeniem jednej głowy i jednego ogona - 0 głów i 0 ogonów wydaje mi się bardziej naturalne.

probability bayesian beta-distribution Hatszepsut
źródło

(+1) Cytat jest mylący, ponieważ zachęca czytelnika do zrównania dwóch bardzo różnych zmysłów „obserwacji”. Zastosowano tu sens sprawdzenia samej monety - w rzeczywistości oznacza to, że rozumiesz konfigurację eksperymentalną. Ale wniosek, że implikuje to zależy od reinterpretacji „obserwuj” w innym sensie dwukrotnego przeprowadzenia eksperymentu, podczas którego jednym wynikiem były głowy, a drugim ogony. Ten rodzaj logicznego sztuczki jest intelektualnym oszustwem; sprawia, że metody bayesowskie wydają się arbitralne i logicznie śliskie, a szkoda.

a = b = 1

$a=b=1$

whuber

Cytat jest błędny: nie ma uzasadnienia dla wcześniejszej wersji Beta (1, 1).

Neil G,

Równie łatwo można argumentować, że jest to informacja z jednej obserwacji - pół głowy / pół ogona.

Glen_b

Proszę pamiętać o zamierzonym celu tego fragmentu w książce. Ma to być proste intuicyjne uzasadnienie dla początkujących użytkowników , oczywiście nie matematyczny argument i zdecydowanie nie twierdzenie, że beta (1,1) jest najlepszym lub tylko niejasnym wcześniejszym. Gdzie indziej w książce staram się pokazać, że skromne różnice w niejasnych priory nie mają istotnej różnicy w tylnej części, gdy istnieje umiarkowanie duża ilość danych. (Z wyjątkiem czynników Bayesa, które są bardzo wrażliwe na przeora!) W innych pismach omawiałem wcześniej Haldane.

John K. Kruschke,

Cytat jest „logicznym sztuczką ręki” (świetne wyrażenie!), Jak zauważył @whuber w komentarzach do PO. Jedyne, co możemy naprawdę powiedzieć po zobaczeniu, że moneta ma głowę i ogon, to to, że zarówno zdarzenia „głowa”, jak i „ogon” nie są niemożliwe. W ten sposób moglibyśmy odrzucić dyskretny pierwszeństwo, które przypisuje całą masę prawdopodobieństwa „głowie” lub „ogonowi”. Ale to samo w sobie nie prowadzi do munduru przełożonego: pytanie jest znacznie bardziej subtelne. Przede wszystkim podsumujmy trochę tła. Rozważamy model sprzężony Beta-Binominal dla wnioskowania Bayesa o prawdopodobieństwie głów monety, biorąc pod uwagę niezależnych i identycznie rozmieszczonych (warunkowo na ) rzutów monetą. $\theta$ $n$ $\theta$ $p(\theta|x)$ gdy obserwujemy głowy w rzutach: $x$ $n$

p (θ | x) = B e t a (x + α, n - x + β)

$p(\theta|x) = Beta(x+\alpha, n-x+\beta)$

możemy powiedzieć, że i odgrywają rolę „wcześniejszej liczby głów” i „wcześniejszej liczby ogonów” (pseudotriali), a można interpretować jako efektywną wielkość próby. Do tej interpretacji moglibyśmy również dojść przy użyciu dobrze znanego wyrażenia średniej tylnej jako średniej ważonej wcześniejszej średniej i średniej próbki . $\alpha$ $\beta$ $\alpha+\beta$ $\frac{\alpha}{\alpha+\beta}$ $\frac{x}{n}$

Patrząc na , możemy dokonać dwóch rozważań: $p(\theta|x)$

ponieważ nie mamy wcześniejszej wiedzy na temat (maksymalna ignorancja), intuicyjnie oczekujemy, że efektywny rozmiar próby będzie „mały”. Gdyby był duży, przeor dysponowałby sporą wiedzą. Innym sposobem na dostrzeżenie tego jest zauważenie, że jeśli i są „małe” w odniesieniu do i , prawdopodobieństwo późniejsze nie będzie zależeć od naszego wcześniejszego, ponieważ i . . Oczekujemy, że przeor, który nie zawiera dużej wiedzy, musi szybko stać się nieistotny w świetle niektórych danych. $\theta$ $\alpha+\beta$ $\alpha$ $\beta$ $x$ $n-x$ $x+\alpha\approx x$ $n-x+\beta\approx n-x$
Ponieważ jest średnią wcześniejszą i nie mamy wcześniejszej wiedzy na temat rozkładu , spodziewalibyśmy się, że . To argument symetrii - jeśli nie wiemy nic lepszego, nie spodziewalibyśmy się z góry, że rozkład jest przesunięty w kierunku 0 lub w kierunku 1. Rozkład Beta jest $\mu_{prior}=\frac{\alpha}{\alpha+\beta}$ $\theta$ $\mu_{prior}=0.5$

$f (θ | α, β) = \frac{Γ (α + β)}{Γ (α) + Γ (β)} θ^{α - 1} (1 - θ)^{β - 1}$ $f(\theta|\alpha,\beta)=\frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha) +\Gamma(\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}$
To wyrażenie jest symetryczne tylko wokół jeśli . $\theta=0.5$ $\alpha=\beta$

Z tych dwóch powodów, niezależnie od tego, co wcześniej (należące do rodziny Beta - pamiętaj, model sprzężony!), Którego zdecydujemy się użyć, intuicyjnie oczekujemy, że i jest „małe”. Widzimy, że wszystkie trzy powszechnie stosowane nieinformacyjne priory dla modelu beta-dwumianowego mają te same cechy, ale poza tym są one całkiem różne. I to jest oczywiste: brak wcześniejszej wiedzy lub „maksymalnej niewiedzy” nie jest naukową definicją, więc jaki rodzaj uprzedniego wyrażenia „maksymalnej niewiedzy”, tj. Tego, co nie jest informacyjnym przełożeniem, zależy od tego, co faktycznie rozumiesz jako „maksimum ignorancja". $\alpha=\beta=c$ $c$

moglibyśmy wybrać przeor, który mówi, że wszystkie wartości dla są równoważne, ponieważ nie wiemy nic lepszego. Ponownie argument symetrii. Odpowiada to : $\theta$ $\alpha=\beta=1$

$f (θ | 1, 1) = \frac{Γ (2)}{2 Γ (1)} θ^{0} (1 - θ)^{0} = 1$ $f(\theta|1,1)=\frac{\Gamma(2)}{2\Gamma(1)}\theta^{0}(1-\theta)^{0}=1$
dla , tj. mundur wcześniej używany przez Kruschke. Bardziej formalnie, pisząc wyrażenie dla entropii różnicowej rozkładu Beta, można zauważyć, że jest ono zmaksymalizowane, gdy . Teraz entropię często interpretuje się jako miarę „ilości informacji” przenoszonej przez rozkład: wyższa entropia odpowiada mniejszej ilości informacji. Zatem można użyć tej zasady maksymalnej entropii, aby powiedzieć, że w rodzinie Beta, przeor, który zawiera mniej informacji (maksymalna ignorancja), jest tym samym przełożonym. $\theta\in[0,1]$ $\alpha=\beta=1$
Możesz wybrać inny punkt widzenia, ten używany przez PO, i powiedzieć, że żadna informacja nie dotyczy braku głów i ogona, tj.

$α = β = 0 \Rightarrow π (θ) \propto θ^{- 1} (1 - θ)^{- 1}$ $\alpha=\beta=0 \Rightarrow \pi(\theta) \propto \theta^{-1}(1-\theta)^{-1}$
Przeor, który otrzymujemy w ten sposób, nazywa się przeorem Haldane . Funkcja ma mały problem - całka nad jest nieskończona, tzn. Bez względu na stałą normalizującą, nie może być przekształcony w odpowiedni pdf. W rzeczywistości wcześniejszy Haldane jest właściwym pmf , co stawia prawdopodobieństwo 0,5 na , 0,5 na i 0 prawdopodobieństwa na wszystkich innych wartościach dla . Nie dajmy się jednak ponieść emocjom - dla ciągłego parametru , priory, które nie odpowiadają właściwemu pdf, nazywane są niewłaściwymi priors $\theta^{-1}(1-\theta)^{-1}$ $I=[0, 1]$ $\theta=0$ $\theta=1$ $\theta$ $\theta$ . Ponieważ, jak wspomniano wcześniej, wszystko, co ma znaczenie dla wnioskowania bayesowskiego, to rozkład a posteriori, niedopuszczalne pierwszeństwo jest dopuszczalne, o ile rozkład ten jest właściwy. W przypadku przeora Haldane'a możemy udowodnić, że tylny pdf jest poprawny, jeśli nasza próbka zawiera co najmniej jeden sukces i jedną porażkę. Dlatego możemy użyć Haldane wcześniej tylko wtedy, gdy obserwujemy co najmniej jedną głowę i jeden ogon.

Jest jeszcze inny sens, w którym przeora Haldane'a można uznać za nieinformacyjny: średnia rozkładu z tyłu jest teraz , tj. częstotliwość próbkowania głów, która jest częstym oszacowaniem MLE wartości dla dwumianowego modelu problemu zrzucania monet. Również wiarygodne przedziały dla odpowiadają przedziałom ufności Wald. Ponieważ metody częstokrzyskie nie określają przeora, można powiedzieć, że przeor Haldane jest nieinformacyjny lub odpowiada zerowej wcześniejszej wiedzy, ponieważ prowadzi do „tej samej” wniosku, którą mógłby zrobić częsty. $\frac{\alpha + x}{\alpha + \beta + n}=\frac{x}{n}$ $\theta$ $\theta$
Na koniec możesz użyć przeora, który nie zależy od parametryzacji problemu, tj. Przeora Jeffreysa, który dla modelu Beta-Dwumianowego odpowiada

$α = β = \frac{1}{2} \Rightarrow π (θ) \propto θ^{- \frac{1}{2}} (1 - θ)^{- \frac{1}{2}}$ $\alpha=\beta=\frac{1}{2} \Rightarrow \pi(\theta) \propto \theta^{-\frac{1}{2}}(1-\theta)^{-\frac{1}{2}}$
a zatem przy efektywnej wielkości próbki wynoszącej 1. Zaliczka Jeffreysa ma tę zaletę, że jest niezmienna przy reparametryzacji przestrzeni parametrów. Na przykład jednolity wcześniejszy przypisuje równe prawdopodobieństwo do wszystkich wartości , prawdopodobieństwo zdarzenia „głowa”. Możesz jednak sparametryzować ten model w kategoriach log-odds zdarzenia „head”, zamiast . Jaki wcześniejszy wyraz wyraża „maksymalną niewiedzę” w kategoriach logarytmicznych szans, tj. Który mówi, że wszystkie możliwe logarytmiczne szanse dla „głowy” zdarzenia są możliwe do uzyskania? To przeor Haldane, jak pokazano w tej (nieco tajemniczej) odpowiedzi $\theta$ $\lambda=log(\frac{\theta}{1-\theta})$ $\theta$ . Zamiast tego Jeffreys jest niezmienny we wszystkich zmianach metrycznych. Jeffreys stwierdził, że przeor, który nie ma tej właściwości, jest w pewien sposób pouczający, ponieważ zawiera informacje o metrykach użytych do parametryzacji problemu. Jego przeor nie.

Podsumowując, w modelu Beta-dwumianowym nie ma tylko jednego jednoznacznego wyboru dla nieinformacyjnego przeora. To, co wybierzesz, zależy od tego, co rozumiesz jako zero wcześniejszej wiedzy i od celów Twojej analizy.

DeltaIV
źródło

Dystrybucja beta po rzucie monetą

Odpowiedzi: