Próbuję zaimplementować model mieszanki Gaussa z stochastycznym wnioskiem wariacyjnym, zgodnie z tym artykułem .
To jest pgm mieszanki Gaussa.
Według artykułu, pełny algorytm stochastycznego wnioskowania wariacyjnego to:
I nadal jestem bardzo zdezorientowany co do metody skalowania go do GMM.
Po pierwsze, myślałem, że lokalny parametr wariacyjny jest po prostu a inne są parametrami globalnymi. Popraw mnie, jeśli się myliłem. Co oznacza krok 6 as though Xi is replicated by N times
? Co mam zrobić, aby to osiągnąć?
Czy możesz mi w tym pomóc? Z góry dziękuję!
machine-learning
bayesian
clustering
gaussian-mixture
variational-bayes
użytkownik5779223
źródło
źródło
Odpowiedzi:
Ten samouczek ( https://chrisdxie.files.wordpress.com/2016/06/in-depth-variational-inference-tutorial.pdf ) odpowiada na większość pytań i prawdopodobnie byłby łatwiejszy do zrozumienia niż oryginalny artykuł SVI jako szczegółowo omawia wszystkie szczegóły implementacji SVI (i koordynuje próbkowanie wejścia VI i Gibbs) dla modelu mieszanki Gaussa (ze znaną wariancją).
źródło
Po pierwsze, kilka notatek, które pomagają mi zrozumieć tekst SVI:
W mieszaniniek Gaussianie, nasze parametry globalne to parametry średnie i precyzyjne (wariancja odwrotna) μk,τk parametry dla każdego. To jest,ηg jest naturalnym parametrem tego rozkładu, normalną gamma formy
zη0=2α−1 , η1=γ∗(2α−1) i η2=2β+γ2(2α−1) . (Bernardo i Smith, teoria bayesowska ; zwróć uwagę, że różni się ona nieco od czteroparametrowej normalnej gamma, którą zwykle widzisz .) Użyjemya,b,m odnosić się do parametrów wariacyjnych dla α,β,μ
Pełny warunekμk,τk jest normalną gamma z parametrami η˙+⟨∑Nzn,k , ∑Nzn,kxN , ∑Nzn,kx2n⟩ , gdzie η˙ jest przeorem. (Thezn,k tam może być również mylące; ma sens, zaczynając odexpln(p)) sztuczka zastosowana do ∏Np(xn|zn,α,β,γ)=∏N∏K(p(xn|αk,βk,γk))zn,k i kończąc na sporej ilości algebry pozostawionej czytelnikowi).
Dzięki temu możemy wykonać krok (5) pseudokodu SVI za pomocą:
Aktualizacja parametrów globalnych jest łatwiejsza, ponieważ każdy parametr odpowiada liczbie danych lub jednej z jego wystarczających statystyk:
Oto, jak wygląda minimalne prawdopodobieństwo danych w wielu iteracjach, gdy są szkolone na bardzo sztucznych, łatwych do oddzielenia danych (kod poniżej). Pierwszy wykres pokazuje prawdopodobieństwo przy początkowych, losowych parametrach wariacyjnych i0 iteracje; każde następne następuje po następnej potędze dwóch iteracji. W kodziea,b,m odnoszą się do parametrów wariacyjnych dla α,β,μ .
źródło