Czytałem gdzieś, że metoda Variational Bayes jest uogólnieniem algorytmu EM. Rzeczywiście, iteracyjne części algorytmów są bardzo podobne. Aby przetestować, czy algorytm EM jest specjalną wersją Variational Bayes, próbowałem:
to dane, to zbiór ukrytych zmiennych, a to parametry. W Variational Bayes, które wykonujemy, możemy dokonać przybliżenia, tak aby . Gdzie są prostsze, możliwe do dystrybucji rozkłady.Θ P ( X , Θ | Y ) ≈ Q X ( X ) Q Θ ( Θ ) Q
Ponieważ algorytm EM znajduje oszacowanie punktu MAP, pomyślałem, że zmienne Bayes mogą zbiegać się do EM, jeśli użyję funkcji Delta, takiej jak: . jest pierwszym oszacowaniem parametrów, jak zwykle w EM.Θ 1
Gdy podano , który minimalizuje dywergencję KL, można znaleźć za pomocą wzoru Powyższa formuła upraszcza się do , ten etap okazuje się być odpowiednikiem kroku Oczekiwania algorytmu EM!P 1 x ( x ), Q 1 x ( x ) = exp ( E Æ Θ 1 [ ln P ( X , Y , Θ ) ] ) P 1 x (x)=P(x|Θ1,Y)
Ale nie mogę wyprowadzić kroku Maksymalizacji jako kontynuacji tego. W następnym kroku musimy obliczyć i zgodnie z regułą iteracji Variational Bayesa jest to:
Czy algorytmy VB i EM są naprawdę połączone w ten sposób? Jak możemy wyprowadzić EM jako szczególny przypadek odmian wariacyjnych, czy moje podejście jest prawdziwe?
źródło
Odpowiedzi:
Twoje podejście jest prawidłowe. EM jest równoważne VB pod warunkiem, że przybliżona tylna dla jest ograniczona do masy punktowej. (Jest to wspomniane bez dowodu na stronie 337 analizy danych bayesowskich .) Niech będzie nieznanym miejscem tej masy punktowej: VB będzie zminimalizuj następującą dywergencję : Minimum powyżej daje krok E EM, a minimum powyżej daje krok M EM.Θ Θ∗
Oczywiście, gdybyś rzeczywiście ocenił rozbieżność KL, byłoby to nieskończone. Ale to nie jest problem, jeśli weźmiesz pod uwagę funkcję delta jako ograniczenie.
źródło