Czy ktoś może wyjaśnić sprzężone priory w najprostszy możliwy sposób?

23

Od jakiegoś czasu staram się zrozumieć ideę sprzężonych priorów w statystyce bayesowskiej, ale po prostu nie rozumiem. Czy ktoś może wyjaśnić ten pomysł w najprostszy możliwy sposób, być może wykorzystując jako przykład „przeor Gaussa”?

Jenna Maiz
źródło

Odpowiedzi:

23

Uprzedni parametr prawie zawsze będzie miał określoną formę funkcjonalną (zapisaną ogólnie w kategoriach gęstości). Powiedzmy, że ograniczamy się do jednej konkretnej rodziny dystrybucji, w którym to przypadku wybór naszego wcześniejszego ogranicza się do wyboru parametrów tej rodziny.

Na przykład, należy rozważyć normalnego modelu YiiidN(μ,σ2) . Dla uproszczenia weźmy również σ2 jak wiadomo. Ta część modelu - model danych - określa funkcję prawdopodobieństwa.

Aby uzupełnić nasz model bayesowski, potrzebujemy uprzedniego dla μ .

Jak wspomniano powyżej, często możemy podać pewną rodzinę dystrybucyjną dla naszego przeora dla μ a następnie musimy jedynie wybrać parametry tego rozkładu (na przykład często wcześniejsze informacje mogą być dość niejasne - mniej więcej tam, gdzie chcemy skoncentrować się - zamiast bardzo specyficznej formy funkcjonalnej i możemy mieć wystarczającą swobodę modelowania tego, co chcemy, wybierając parametry - powiedzmy, aby dopasować wcześniejszą średnią i wariancję).

Jeśli okaże się, że a posteriori dla μ pochodzi z tej samej rodziny co poprzedni, wówczas mówi się, że ten wcześniejszy jest „sprzężony”.

(To, co sprawia, że ​​okazuje się być koniugatem, to sposób, w jaki łączy się z prawdopodobieństwem)

Więc w tym przypadku weźmy wcześniejszy Gaussa dla μ (powiedzmy μN(θ,τ2) ). Jeśli to zrobimy, zobaczymy, że tylny dla μ jest również gaussowski. W związku z tym przeor gaussowski był sprzężonym przeorem dla naszego powyższego modelu.

To wszystko, co tam naprawdę jest - jeśli tylny pochodzi z tej samej rodziny co przeor, jest to sprzężony przeor.

W prostych przypadkach można zidentyfikować koniugat przed sprawdzeniem prawdopodobieństwa. Rozważmy na przykład prawdopodobieństwo dwumianowe; upuszczając stałe, wygląda jak gęstość beta we p ; a ze względu na sposób, w jaki łączą się moce i ( 1 - p ) , pomnoży się przez beta, zanim da również iloczyn mocy p i ( 1 - p ) ... więc możemy natychmiast zobaczyć z prawdopodobieństwa, że beta będzie koniugatem przed p dla prawdopodobieństwa dwumianowego.p(1p)p(1p)p

W przypadku Gaussa najłatwiej zauważyć, że stanie się to, biorąc pod uwagę gęstość kłód i prawdopodobieństwo kłody; prawdopodobieństwo logarytmiczne będzie kwadratowe w a suma dwóch kwadratów jest kwadratowe, więc kwadrat logarytmiczny poprzedzający + kwadratowy prawdopodobieństwo logarytmiczne daje kwadratową pozycję tylną (każdy ze współczynników terminu najwyższego rzędu będzie oczywiście ujemny).μ

Glen_b - Przywróć Monikę
źródło
9

Jeśli twój model należy do rodziny wykładniczej , to znaczy, jeśli gęstość rozkładu ma postać

f(x|θ)=h(x)exp{T(θ)S(x)ψ(θ)}xXθΘ
względemdanego środka dominującym(Lebesgue'a, liczenie i TC.), gdziets oznacza produkt nad skalarnąRd i
T:XRdS:ΘRd
są funkcjami mierzalnymi, sprzężone priory naθ są zdefiniowane przez gęstości postaci
π(θ|ξ,λ)=C(ξ,λ)exp{T(θ)ξλψ(θ)}
[w odniesieniu doarbitralnie wybranego środka dominującego dν naΘ ] z
C(ξ,λ)1=Θexp{T(θ)ξλψ(θ)}dν<
iλΛR+ ,ξΞλT(X)

Wybór miary dominującej jest determinujący dla rodziny przełożonych. Jeśli na przykład ktoś zmierzy się z normalnym średnim prawdopodobieństwem na μ jak w odpowiedzi Glen_b , wybranie miary Lebesgue'a dμ jako dominującej miary prowadzi do sprzężenia normalnych priorów. Jeśli zamiast tego wybierze się (1+μ2)2dμ jako miarę dominującą, priory sprzężone należą do rodziny rozkładów o gęstości

exp{α(μμ0)2}α>0,  μ0R
w odniesieniu do tej dominującej miary, a zatem nie są już normalnymi priorytetami. Trudność ta jest zasadniczo taka sama, jak trudność wyboru określonej parametryzacji prawdopodobieństwa i wyboru miary Lebesgue'a dla tej parametryzacji. W obliczu funkcji prawdopodobieństwa nie ma nieodłącznej (ani wewnętrznej ani referencyjnej) dominującej miary w przestrzeni parametrów.

Poza tym wykładniczym ustawieniem rodziny nie ma nietrywialnej rodziny dystrybucji ze stałą obsługą, która pozwala na sprzężone priory. Jest to konsekwencja lematu Darmois-Pitmana-Koopmana .

Xi'an
źródło
11
„najprościej mówiąc” Być może wyjaśnienie, które nie zakłada wcześniejszej znajomości środków, byłoby bardziej przydatne dla PO.
3
Niestety, obawiam się, że priory sprzężone są pozbawione znaczenia bez tła miary (chociaż jest to najlepiej strzeżona tajemnica we Wszechświecie).
Xi'an,
6
Moim zdaniem „najprostsze możliwe terminy” są otwarte na interpretację, a wyjaśnienie wykorzystujące zaawansowaną matematykę, takie jak teoria miar, może być w pewnym sensie „proste”, może nawet „prostsze” niż wyjaśnienie, które pozwala uniknąć takiej maszynerii. W każdym razie takie wyjaśnienie może być bardzo pouczające dla kogoś, kto ma niezbędne doświadczenie, aby je zrozumieć i nieszkodliwe jest umieszczanie takiej odpowiedzi na liście różnych sposobów wyjaśniania tematu. Piszemy odpowiedzi nie tylko dla OP, ale dla wszystkich przyszłych czytelników.
littleO
1
@LBogaardt Twoja krytyka miałaby większą wagę, gdybyś mógł zamieścić link do jednego lub więcej pytań, w których Twoim zdaniem odpowiedź byłaby zarówno na dany temat, jak i na bardziej odpowiednim poziomie. Pamiętaj, że „prosty” nie jest dobrze zdefiniowanym terminem i ma różne subiektywne interpretacje. Niezależnie od tego, błędne byłoby połączenie go z „matematycznie niewyszukanym”, jak sugerują twoje komentarze.
whuber
2
Odpowiedź Xi'ana nie jest dla mnie bezużyteczna. Nauczyłem się czegoś.
littleO
2

Lubię używać pojęcia „jądra” dystrybucji. Tutaj pozostawiasz tylko części zależne od parametru. Kilka prostych przykładów.

Jądro normalne

p(μ|a,b)=K1×exp(aμ2+bμ)
Gdzie K jest „stałą normalizującą” K=exp(aμ2+bμ)dμ=πaexp(b24a)E(μ|a,b)=b2aVar(μ|a,b)=12a

p(θ|a,b)=K1×θa(1θ)b
Where K=θa(1θ)bdθ=Beta(a+1,b+1)

When we look at the likelihood function, we can do the same thing, and express it in "kernel form". For example with iid data

p(D|μ)=i=1np(xi|μ)=Q×f(μ)

For some constant Q and some function f(μ). If we can recognise this function as a kernel, then we can create a conjugate prior for that likelihood. If we take the normal likelihood with unit variance, the above looks like

p(D|μ)=i=1np(xi|μ)=i=1n12πexp((xiμ)22)=[i=1n12π]×i=1nexp((xiμ)22)=(2π)n2×exp(i=1n(xiμ)22)=(2π)n2×exp(i=1nxi22xiμ+μ22)=(2π)n2×exp(i=1nxi22)×exp(μi=1nxiμ2n2)=Q×exp(aμ2+bμ)

where a=n2 and b=i=1nxi and Q=(2π)n2×exp(i=1nxi22)

This likelihood function has the same kernel as the normal distribution for μ, so a conjugate prior for this likelihood is also the normal distribution.

p(μ|a0,b0)=K01exp(a0μ2+b0μ)
The posterior is then
p(μ|D,a0,b0)K01exp(a0μ2+b0μ)×Q×exp(aμ2+bμ)=K01×Q×exp([a+a0]μ2+[b+b0]μ)exp([a+a0]μ2+[b+b0]μ)
Showing that the posterior is also a normal distribution, with updated parameters from the prior using the information in the data.

In some sense a conjugate prior acts similarly to adding "pseudo data" to the data observed, and then estimating the parameters.

probabilityislogic
źródło
1
(+1) I appreciate the pseudo-data intuition!
Xi'an
1

For a given distribution family Dlik of the likelihood (e.g. Bernoulli),

if the prior is of the same distribution family Dpri as the posterior (e.g. Beta),

then Dpri and Dlik are conjugate distribution families and the prior is called a conjugate prior for the likelihood function.

Note: p(θ|x)posteriorp(x|θ)likelihoodp(θ)prior

Thomas G.
źródło
How does this explain what a conjugate prior is?
LBogaardt
ok I'll edit that.
Thomas G.