Związek między wariacyjnymi Bayes i EM

26

Czytałem gdzieś, że metoda Variational Bayes jest uogólnieniem algorytmu EM. Rzeczywiście, iteracyjne części algorytmów są bardzo podobne. Aby przetestować, czy algorytm EM jest specjalną wersją Variational Bayes, próbowałem:

  1. Y to dane, to zbiór ukrytych zmiennych, a to parametry. W Variational Bayes, które wykonujemy, możemy dokonać przybliżenia, tak aby . Gdzie są prostsze, możliwe do dystrybucji rozkłady.Θ P ( X , Θ | Y ) Q X ( X ) Q Θ ( Θ ) QXΘP(X,Θ|Y)QX(X)QΘ(Θ)Q

  2. Ponieważ algorytm EM znajduje oszacowanie punktu MAP, pomyślałem, że zmienne Bayes mogą zbiegać się do EM, jeśli użyję funkcji Delta, takiej jak: . jest pierwszym oszacowaniem parametrów, jak zwykle w EM.Θ 1QΘ1(Θ)=δΘ1(Θ)Θ1

  3. Gdy podano , który minimalizuje dywergencję KL, można znaleźć za pomocą wzoru Powyższa formuła upraszcza się do , ten etap okazuje się być odpowiednikiem kroku Oczekiwania algorytmu EM!P 1 x ( x ), Q 1 x ( x ) = exp ( E Æ Θ 1 [ ln P ( X , Y , Θ ) ] )QΘ1(Θ)=δΘ1(Θ)QX1(X) P 1 x (x)=P(x|Θ1,Y)

    QX1(X)=exp(EδΘ1[lnP(X,Y,Θ)])exp(EδΘ1[lnP(X,Y,Θ)])dX
    QX1(X)=P.(X|Θ1,Y)

Ale nie mogę wyprowadzić kroku Maksymalizacji jako kontynuacji tego. W następnym kroku musimy obliczyć i zgodnie z regułą iteracji Variational Bayesa jest to:QΘ2)(Θ)

QΘ2)(Θ)=exp(miP.(X|Θ1,Y)[lnP.(X,Y,Θ)])exp(miP.(X|Θ1,Y)[lnP.(X,Y,Θ)])reΘ

Czy algorytmy VB i EM są naprawdę połączone w ten sposób? Jak możemy wyprowadzić EM jako szczególny przypadek odmian wariacyjnych, czy moje podejście jest prawdziwe?

Ufuk Can Bicici
źródło
Gdzie przeczytałeś, że algorytm EM znajduje oszacowanie MAP? Związek między wnioskowaniem wariacyjnym a EM stanie się jasny, gdy zrozumiesz pogląd EM przedstawiony w tym artykule przez Neal & Hinton (1998) . Zobacz także moją odpowiedź tutaj .
Lucas
Myślę, że nauczyłem się algorytmu EM w taki sam sposób, jak wyjaśnia ten artykuł, jest on postrzegany jako problem maksymalizacji dolnej granicy. Korzystając z równości Jensena i rachunku wariacyjnego, okazuje się, że na etapie oczekiwania jest rozkładem, który maksymalizuje dolną granicę dla aw kroku maksymalizacji znajduje się , co jest wartością maksymalną w dolnej granicy. Jest to podobne do Bayesów wariacyjnych. (I zbiega się z lokalnym maksimum brzeżnej tylnej, stąd oszacowanie MAP)Θ t Θ t + 1 = a r g m a x Θ < lnP.(X|Θt,Y)ΘtΘt+1=zarsolmzaxΘ<lnP.(X,Y,Θ)>P.(X|Θt,Y)
Ufuk Can Bicici
1
Przepraszam, nie przeczytałem twojego pytania wystarczająco uważnie. Uważam, że krok maksymalizacji w celu obliczenia jest poprawny tylko wtedy, gdy dopuszczasz dowolną dystrybucję, to znaczy, jeśli przyjmujesz tylko założenie faktoryzacyjne. Ale dodatkowo założyłeś, że jest rozkładem delta. Spróbuj jawnie zmaksymalizować dolną granicę w odniesieniu do , parametru . QΘ2)QΘ2)Θ2)QΘ2)(Θ)=δΘ2)(Θ)
Lucas
Na stronie 21 prezentacji cs.cmu.edu/~tom/10-702/Zoubin-702.pdf znalazłem porównanie EM i VB, podobnie za pomocą funkcji Diraca. Ale nie podano, w jaki sposób VB redukuje się do EM.
Ufuk Can Bicici

Odpowiedzi:

20

Twoje podejście jest prawidłowe. EM jest równoważne VB pod warunkiem, że przybliżona tylna dla jest ograniczona do masy punktowej. (Jest to wspomniane bez dowodu na stronie 337 analizy danych bayesowskich .) Niech będzie nieznanym miejscem tej masy punktowej: VB będzie zminimalizuj następującą dywergencję : Minimum powyżej daje krok E EM, a minimum powyżej daje krok M EM. ΘΘ

QΘ(Θ)=δ(Θ-Θ)
K.L.(Q||P.)=QX(X)QΘ(Θ)lnQX(X)QΘ(Θ)P.(X,Y,Θ)reXreΘ=QX(X)lnQX(X)QΘ(Θ)P.(X,Y,Θ)reX
QX(X)Θ

Oczywiście, gdybyś rzeczywiście ocenił rozbieżność KL, byłoby to nieskończone. Ale to nie jest problem, jeśli weźmiesz pod uwagę funkcję delta jako ograniczenie.

Tom Minka
źródło
Technicznie, maksymalizacja wrt odpowiada krokowi M MAP-EM (z wcześniejszym ). - sekcja 3.1 artykułu VBEM Θ P( Θ )miQx[lnP.(X,Y,Θ)]=miQx[lnP.(X,Y|Θ)]+lnP.(Θ)ΘP.(Θ)
Yibo Yang