Od jakiegoś czasu staram się zrozumieć ideę sprzężonych priorów w statystyce bayesowskiej, ale po prostu nie rozumiem. Czy ktoś może wyjaśnić ten pomysł w najprostszy możliwy sposób, być może wykorzystując jako przykład „przeor Gaussa”?
źródło
Od jakiegoś czasu staram się zrozumieć ideę sprzężonych priorów w statystyce bayesowskiej, ale po prostu nie rozumiem. Czy ktoś może wyjaśnić ten pomysł w najprostszy możliwy sposób, być może wykorzystując jako przykład „przeor Gaussa”?
Uprzedni parametr prawie zawsze będzie miał określoną formę funkcjonalną (zapisaną ogólnie w kategoriach gęstości). Powiedzmy, że ograniczamy się do jednej konkretnej rodziny dystrybucji, w którym to przypadku wybór naszego wcześniejszego ogranicza się do wyboru parametrów tej rodziny.
Na przykład, należy rozważyć normalnego modelu . Dla uproszczenia weźmy również jak wiadomo. Ta część modelu - model danych - określa funkcję prawdopodobieństwa.
Aby uzupełnić nasz model bayesowski, potrzebujemy uprzedniego dla .
Jak wspomniano powyżej, często możemy podać pewną rodzinę dystrybucyjną dla naszego przeora dla a następnie musimy jedynie wybrać parametry tego rozkładu (na przykład często wcześniejsze informacje mogą być dość niejasne - mniej więcej tam, gdzie chcemy skoncentrować się - zamiast bardzo specyficznej formy funkcjonalnej i możemy mieć wystarczającą swobodę modelowania tego, co chcemy, wybierając parametry - powiedzmy, aby dopasować wcześniejszą średnią i wariancję).
Jeśli okaże się, że a posteriori dla pochodzi z tej samej rodziny co poprzedni, wówczas mówi się, że ten wcześniejszy jest „sprzężony”.
(To, co sprawia, że okazuje się być koniugatem, to sposób, w jaki łączy się z prawdopodobieństwem)
Więc w tym przypadku weźmy wcześniejszy Gaussa dla (powiedzmy ). Jeśli to zrobimy, zobaczymy, że tylny dla jest również gaussowski. W związku z tym przeor gaussowski był sprzężonym przeorem dla naszego powyższego modelu.
To wszystko, co tam naprawdę jest - jeśli tylny pochodzi z tej samej rodziny co przeor, jest to sprzężony przeor.
W prostych przypadkach można zidentyfikować koniugat przed sprawdzeniem prawdopodobieństwa. Rozważmy na przykład prawdopodobieństwo dwumianowe; upuszczając stałe, wygląda jak gęstość beta we ; a ze względu na sposób, w jaki łączą się moce i ( 1 - p ) , pomnoży się przez beta, zanim da również iloczyn mocy p i ( 1 - p ) ... więc możemy natychmiast zobaczyć z prawdopodobieństwa, że beta będzie koniugatem przed p dla prawdopodobieństwa dwumianowego.
W przypadku Gaussa najłatwiej zauważyć, że stanie się to, biorąc pod uwagę gęstość kłód i prawdopodobieństwo kłody; prawdopodobieństwo logarytmiczne będzie kwadratowe w a suma dwóch kwadratów jest kwadratowe, więc kwadrat logarytmiczny poprzedzający + kwadratowy prawdopodobieństwo logarytmiczne daje kwadratową pozycję tylną (każdy ze współczynników terminu najwyższego rzędu będzie oczywiście ujemny).
Jeśli twój model należy do rodziny wykładniczej , to znaczy, jeśli gęstość rozkładu ma postać
Wybór miary dominującej jest determinujący dla rodziny przełożonych. Jeśli na przykład ktoś zmierzy się z normalnym średnim prawdopodobieństwem na jak w odpowiedzi Glen_b , wybranie miary Lebesgue'a jako dominującej miary prowadzi do sprzężenia normalnych priorów. Jeśli zamiast tego wybierze się jako miarę dominującą, priory sprzężone należą do rodziny rozkładów o gęstości
Poza tym wykładniczym ustawieniem rodziny nie ma nietrywialnej rodziny dystrybucji ze stałą obsługą, która pozwala na sprzężone priory. Jest to konsekwencja lematu Darmois-Pitmana-Koopmana .
Lubię używać pojęcia „jądra” dystrybucji. Tutaj pozostawiasz tylko części zależne od parametru. Kilka prostych przykładów.
Jądro normalnep(μ|a,b)=K−1×exp(aμ2+bμ)
Gdzie K jest „stałą normalizującą” K=∫exp(aμ2+bμ)dμ=π−a−−−√exp(−b24a) E(μ|a,b)=−b2a Var(μ|a,b)=−12a
When we look at the likelihood function, we can do the same thing, and express it in "kernel form". For example with iid data
For some constantQ and some function f(μ) . If we can recognise this function as a kernel, then we can create a conjugate prior for that likelihood.
If we take the normal likelihood with unit variance, the above looks like
p(D|μ)=∏i=1np(xi|μ)=∏i=1n12π−−√exp(−(xi−μ)22)=[∏i=1n12π−−√]×∏i=1nexp(−(xi−μ)22)=(2π)−n2×exp(−∑i=1n(xi−μ)22)=(2π)−n2×exp(−∑i=1nx2i−2xiμ+μ22)=(2π)−n2×exp(−∑i=1nx2i2)×exp(μ∑i=1nxi−μ2n2)=Q×exp(aμ2+bμ)
wherea=−n2 and b=∑ni=1xi and Q=(2π)−n2×exp(−∑ni=1x2i2)
This likelihood function has the same kernel as the normal distribution forμ , so a conjugate prior for this likelihood is also the normal distribution.
p(μ|a0,b0)=K−10exp(a0μ2+b0μ)
The posterior is then
p(μ|D,a0,b0)∝K−10exp(a0μ2+b0μ)×Q×exp(aμ2+bμ)=K−10×Q×exp([a+a0]μ2+[b+b0]μ)∝exp([a+a0]μ2+[b+b0]μ)
Showing that the posterior is also a normal distribution, with updated parameters from the prior using the information in the data.
In some sense a conjugate prior acts similarly to adding "pseudo data" to the data observed, and then estimating the parameters.
źródło
For a given distribution familyDlik of the likelihood (e.g. Bernoulli),
if the prior is of the same distribution familyDpri as the posterior (e.g. Beta),
thenDpri and Dlik are conjugate distribution families and the prior is called a conjugate prior for the likelihood function.
Note:p(θ|x)posterior∼p(x|θ)likelihood⋅p(θ)prior
źródło