Zrozumienie koniugatu Beta przed wnioskiem Bayesa o częstotliwości

11

Poniżej znajduje się fragment wprowadzenia Bolstad do statystyki bayesowskiej .

Czytam t

Dla wszystkich tych ekspertów może to być trywialne, ale nie rozumiem, w jaki sposób autor stwierdza, że ​​nie musimy wykonywać żadnej integracji, aby obliczyć prawdopodobieństwo późniejsze dla pewnej wartości . Rozumiem drugie wyrażenie, którym jest proporcjonalność i skąd pochodzą wszystkie terminy ( prawdopodobieństwo x pierwszeństwo) . Ponadto rozumiem, że nie musimy martwić się o mianownik, ponieważ tylko licznik jest wprost proporcjonalny. Ale przechodząc do trzeciego równania , czy nie zapominamy o mianowniku reguły Bayesa? Gdzie to poszło? A wartość obliczona przez funkcje Gamma, czy to nie jest stała? Czy stałe nie anulują się w twierdzeniu Bayesa?π

Jenna Maiz
źródło
5
Jest tylko jedna możliwa stała, a mianowicie ta, która czyni funkcję gęstością prawdopodobieństwa.
Xi'an,

Odpowiedzi:

10

Chodzi o to, że wiemy, do czego tylny jest proporcjonalny i tak się dzieje, że nie musimy wykonywać całkowania, aby uzyskać (stały) mianownik, ponieważ uznajemy, że rozkład z funkcją gęstości prawdopodobieństwa proporcjonalną do (np. Z tyłu) to rozkład beta. Ponieważ stałą normalizującą dla takiej wersji beta pdf jest , otrzymujemy tylny pdf bez integracji. I tak, stała normalizująca w twierdzeniu Bayesa jest stałą (biorąc pod uwagę zaobserwowane dane i założone wcześniej), podobnie jak stała normalizująca dla gęstości tylnej.Γ ( α + β )xα1×(1x)β1Γ(α+β)Γ(α)Γ(β)

Björn
źródło
8

Ustawić

Masz ten model: Gęstości, dla których są aw szczególności zauważ, że f(p)=1

pbeta(α,β)x|pbinomial(n,p)
f(p)=1B(α,β)pα1(1p)β1
g(x|p)=(nx)px(1p)nx
1B(α,β)=Γ(α+β)Γ(α)Γ(β).

Wersja niejawna

Teraz. Rozkład tylny jest proporcjonalny do wcześniejszego pomnożonego przez prawdopodobieństwo . Możemy zignorować stałe (tj. Rzeczy, które nie są ), co daje: fgp

h(p|x)f(p)g(p|x)=pα1(1p)β1pxpnx=pα+x1(1p)β+nx1.

Ma to „kształt” rozkładu beta z parametrami i , i wiemy, jaka powinna być odpowiednia stała normalizująca dla rozkładu beta z tymi parametrami: . Lub, jeśli chodzi o funkcje gamma, Innymi słowy, możemy zrobić coś lepszego niż stosunek proporcjonalny bez dodatkowej pracy nóg i przejść od razu do równości: α+xβ+nx1/B(α+x,β+nx)

1B(α+x,β+nx)=Γ(n+α+β)Γ(α+x)Γ(β+nx).
h(p|x)=Γ(n+α+β)Γ(α+x)Γ(β+nx)pα+x1(1p)β+nx1.

Można więc wykorzystać wiedzę o strukturze rozkładu beta, aby łatwo odzyskać wyrażenie dla tylnej części ciała, zamiast przechodzić przez niechlujną integrację i tym podobne.

W pewnym sensie dochodzi do pełnego tylnego przez niejawne anulowanie normalizujących stałych rozkładu stawów, co może być mylące.

Wersja jawna

Możesz także rozdrobnić wszystko proceduralnie, co może być jaśniejsze.

To nie jest tak naprawdę dłużej. Zauważ, że możemy wyrazić wspólną dystrybucję jako i rozkład krańcowy as

f(p)g(x|p)=1B(α,β)(nx)pα+x1(1p)β+nx1
x
01f(p)g(x|p)dp=1B(α,β)(nx)01pα+x1(1p)β+nx1dp=1B(α,β)(nx)Γ(α+x)Γ(β+nx)Γ(α+β+nx)

Możemy więc wyrazić tylną za pomocą twierdzenia Bayesa przez czyli to samo co poprzednio.

h(p|x)=f(p)g(x|p)01f(p)g(x|p)dp=1B(α,β)(nx)pα+x1(1p)β+nx11B(α,β)(nx)Γ(α+x)Γ(β+nx)Γ(α+β+n)=Γ(n+α+β)Γ(α+x)Γ(β+nx)pα+x1(1p)β+nx1
jtobin
źródło
7

Uwagi ogólne

Aby uczynić odpowiedź udzieloną przez @ Björna nieco bardziej jednoznaczną, a jednocześnie bardziej ogólną, powinniśmy pamiętać, że doszliśmy do twierdzenia Bayesa z

p(θ|X)×p(X)=p(X,θ)=p(X|θ)×p(θ)

p(θ|X)=p(X|θ)×p(θ)p(X) (Bayes Thereom)

gdzie reprezentuje obserwowane dane i nasz nieznany parametr, o którym chcielibyśmy wnioskować probabilistycznie - w przypadku pytania parametrem jest nieznana częstotliwość . Nie martwmy się na razie, czy mówimy o wektorach czy skalarach, aby uprościć to.Xθπ

Marginalizacja w ciągłym przypadku prowadzi do

p(X)=+p(X,θ)dθ=+p(X|θ)×p(θ)dθ

gdzie wspólny rozkład jest równy jak widzieliśmy powyżej. Jest to stała, ponieważ po „zintegrowaniu” parametru zależy tylko od stałych warunków .p(X,θ)likelihood×prior

Dlatego możemy przeformułować twierdzenie Bayesa jako

p(θ|X)=Const.×p(X|θ)×p(θ) zConst.=1p(X)=1p(X|θ)×p(θ)dθ

i w ten sposób dojść do zwykłej formy proporcjonalności w Bayesa twierdzenia .

Zastosowanie do problemu rękę

Teraz jesteśmy gotowi po prostu podłączyć to, co wiemy, ponieważ w przypadku pytania ma formęlikelihood×prior

p(X,θ)=p(X|θ)×p(θ)=Aθa+y1(1θ)b+ny1=Aθa1(1θ)b1

gdzie , i gdzie zbiera stałe warunki z prawdopodobieństwa dwumianowego i beta wcześniejszy.a=a+yb=b+nyA=1B(a,b)(ny)

Możemy teraz użyć odpowiedzi udzielonej przez @ Björna, aby stwierdzić, że integruje się ona z funkcją Beta razy zbiór stałych pojęć tak żeB(a,b)A

p(X)=A01θa1(1θ)b1dθ=AB(a,b)

p(θ|X)=Aθa1(1θ)b1AB(a,b)=θa1(1θ)b1B(a,b)

Zauważ, że jakikolwiek stały termin we wspólnej dystrybucji zawsze będzie anulowany, ponieważ pojawi się w nominatorze i mianowniku w tym samym czasie (por. Odpowiedź udzielona przez @jtobin), więc naprawdę nie musimy się tym przejmować.

W ten sposób uznajemy, że nasz rozkład tylny jest w rzeczywistości rozkładem beta, w którym możemy po prostu zaktualizować parametry wcześniejszego i aby dotrzeć do tyłu. Właśnie dlatego dystrybuowana wersja beta nazywana jest koniugatem .a=a+yb=b+ny

gwr
źródło
To rozumowanie jest podobne do niejawnej wersji jtobin. Patrzymy tylko na te fragmenty czasów wiarygodności, które zawierają parametr i zbieramy wszystko inne w stałej normalizacyjnej. Dlatego patrzymy na integrację tylko jako ostatni, zgodny z prawem krok, ponieważ stałe anulują się, jak pokazał jtobin w swojej wyraźnej wersji.
gwr