Wnioskowanie wariacyjne, rozbieżność KL wymaga prawdziwej

12

Aby mój (bardzo skromny) zrozumieć wnioskowanie wariacyjne, próbuje się przybliżyć przybliżenie nieznanego rozkładu , znajdując rozkład który optymalizuje:pq

KL(p||q)=xp(x)logp(x)q(x)

Ilekroć inwestuję czas w zrozumienie wnioskowania wariacyjnego, ciągle uderzam w tę formułę i nie mogę się powstrzymać, ale czuję, że nie rozumiem tego. Wydaje się, że muszę znać , aby obliczyć . Ale cała rzecz była nie wiedziałem tego rozkładu .pKL(p||q)p

Właśnie ten punkt mnie wkurza za każdym razem, gdy próbuję przeczytać coś wariacyjnego. czego mi brakuje?

EDYCJA :

Dodam tutaj kilka dodatkowych komentarzy w wyniku odpowiedzi @wij, postaram się być bardziej precyzyjny.

W przypadkach, które mnie interesują, rzeczywiście wydaje się całkowicie uzasadnione, aby wziąć pod uwagę, co następuje:

p(θ|D)=p(D|θ)p(θ)p(D)p(D|θ)p(θ)

W tym przypadku mogłem wiedzieć, jak powinno wyglądać proporcjonalnie, ponieważ dokonałem wyboru modelu dla i . Czy miałbym wtedy rację mówiąc, że muszę wybrać rozkład rodziny [powiedzmy gaussa], tak że teraz mogę oszacować . Wydaje się, że w tym przypadku próbuję dopasować gaussa, który jest zbliżony do nienormalizowanego . Czy to jest poprawne?p ( D | θ ) p ( θ ) q K L ( p ( θ | D ) | | q ) p ( D | θ ) p ( θ )pp(D|θ)p(θ)qKL(p(θ|D)||q)p(D|θ)p(θ)

Jeśli tak, wydaje mi się, że zakładam, że mój tył jest rozkładem normalnym i po prostu staram się znaleźć prawdopodobne wartości tego rozkładu w odniesieniu do rozbieżności .KL

Vincent Warmerdam
źródło

Odpowiedzi:

7

Mam wrażenie, że traktujesz jako zupełnie nieznany obiekt. Nie sądzę, że tak jest. Prawdopodobnie tego przegapiłeś.p

Powiedzmy, że obserwujemy (iid) i chcemy wywnioskować gdzie przyjmujemy, że i dla x R d są określone przez model. Zgodnie z regułą Bayesa p ( x | Y ) p ( y | x ) p ( x )Y={yi}i=1np(x|Y)p(y|x)p(x)xRd

p(x|Y)=p(x)p(Y)p(Y|x)=p(x)p(Y)i=1np(yi|x).

Pierwszą obserwacją jest to, że wiemy coś o rozkładzie bocznym . Podano jak wyżej. Zazwyczaj po prostu nie znamy jego normalizatora p ( Y ) . Jeśli prawdopodobieństwo p ( y | x ) jest bardzo skomplikowane, wówczas mamy skomplikowany rozkład p ( x | Y ) .p(x|Y)p(Y)p(y|x)p(x|Y)

qpargminqKL(p||q)pq Q = { d i = 1 q i ( x i ) każdy  q i  jest jednowymiarowym gaussowskim } qqqQ={i=1dqi(xi)each qi is a one-dimensional Gaussian}q

qiexp(Ejiqjlogp(x,Y)),

gdzieDokładna formuła nie ma większego znaczenia. Chodzi o przybliżone można znaleźć, opierając się na wiedzy o prawdziwym i założeniu, że postać powinna przyjąć przybliżone .q p qp(x,Y)=p(x)i=1np(yi|x).qpq

Aktualizacja

Poniżej znajduje się odpowiedź na zaktualizowaną część pytania. Właśnie zdałem sobie sprawę, że myślę o . Zawsze użyję dla prawdziwej ilości, a dla przybliżonej. W wnioskowaniu wariacyjnym lub wariacyjnym Bayesie podaje:p q qKL(q||p(x|Y))pqq

q=argminqQKL(q||p(x|Y)).

Przy ustawionym ograniczeniu jak wyżej, rozwiązaniem jest to podane wcześniej. Teraz, jeśli myśliszQ

q=argminqQKL(p(x|Y)||q),

dla zdefiniowanego jako podzbiór rodziny wykładniczej, to wnioskowanie to nazywa się propagacją oczekiwaną (EP). Rozwiązaniem dla w tym przypadku jest takie, że jego momenty są takie same jak dla . q p ( x | Y )Qqp(x|Y)

Tak czy inaczej, masz rację mówiąc, że zasadniczo próbujesz przybliżyć rzeczywistą dystrybucję boczną w sensie KL przez dystrybucję ograniczoną do przyjęcia jakiejś formy.q

wij
źródło
Nie mogę się z tym kłócić. Myślę, że większość wyjaśnień, w tym mój własny połysk na ten temat.
Peadar Coyle