Różnica między MLE i Baum Welch na złączach HMM

10

W tym popularnym pytaniu , wysoko oceniona odpowiedź powoduje, że MLE i Baum Welch są osobni w dopasowaniu HMM.

W przypadku problemu szkoleniowego możemy użyć następujących 3 algorytmów: MLE (szacowanie maksymalnego prawdopodobieństwa), szkolenie Viterbi (NIE mylić z dekodowaniem Viterbi), Baum Welch = algorytm przewijania do przodu

ALE w Wikipedii , mówi

Algorytm Bauma – Welcha wykorzystuje dobrze znany algorytm EM w celu znalezienia oszacowania maksymalnego prawdopodobieństwa parametrów

Jaki jest zatem związek między MLE a algorytmem Bauma – Welcha?


Moja próba: celem algorytmu Bauma – Welcha jest maksymalizacja prawdopodobieństwa, ale wykorzystuje on specjalistyczny algorytm (EM) do rozwiązania optymalizacji. Nadal możemy zmaksymalizować prawdopodobieństwo, stosując inne metody, takie jak przyzwoity gradient. Właśnie dlatego odpowiedź rozdziela dwa algorytmy.

Czy mam rację i czy ktoś może mi pomóc w wyjaśnieniu?

Haitao Du
źródło
1
W zakresie HMM MLE jest wykorzystywany w scenariuszu nadzorowanym, a Baum-Welch w scenariuszu bez nadzoru.
David Batista

Odpowiedzi:

4

Zapoznaj się z jedną z odpowiedzi (autorstwa Masterfool) z podanego linku do pytania,

Odpowiedź Morata jest fałszywa w jednym punkcie: Baum-Welch jest algorytmem Expectation-Maximization, używanym do szkolenia parametrów HMM. Używa algorytmu do przodu i do tyłu podczas każdej iteracji. Algorytm do przodu i do tyłu jest tak naprawdę kombinacją algorytmów do przodu i do tyłu: jedno przejście do przodu, jedno przejście do tyłu.

I zgadzam się z odpowiedzią PierreE tutaj, algorytm Bauma – Welcha służy do rozwiązania maksymalnego prawdopodobieństwa w HHM. Jeśli stany są znane (nadzorowana, oznakowana sekwencja), wówczas stosowana jest inna metoda maksymalizująca MLE (być może po prostu policz częstotliwość każdej emisji i przejścia zaobserwowanej w danych treningowych, patrz slajdy dostarczone przez Francka Dernoncourta).

W ustawieniach MLE dla HMM nie sądzę, aby można było po prostu używać spadku gradientu, ponieważ prawdopodobieństwo (lub log-prawdopodobieństwo) nie ma rozwiązania w postaci zamkniętej i musi być rozwiązane iteracyjnie, tak jak w przypadku modele mikstur, więc przechodzimy do EM. (Zobacz więcej szczegółów w Bishop, Księga rozpoznawania wzorców, rozdział 13.2.1 Pg614)

Sam
źródło
0

Jaki jest zatem związek między MLE a algorytmem Bauma – Welcha?

Algorytm maksymalizacji oczekiwań (EM) jest bardziej ogólny, a algorytm Baum-Welcha jest po prostu jego instancją, a EM jest iteracyjnym algorytmem dla maksymalnego prawdopodobieństwa (ML). Zatem algorytm Baum-Welcha jest również algorytmem iteracyjnym dla maksymalnego prawdopodobieństwa.

Zwykle istnieją trzy algorytmy optymalizacji dla oszacowania maksymalnego prawdopodobieństwa (podejście częste): 1) opadanie gradientu; 2) Markov Chain Monte Carlo; 3) maksymalizacja oczekiwań.

Lerner Zhang
źródło
-1

To pytanie jest obecne od kilku miesięcy, ale ta odpowiedź może pomóc nowym czytelnikom jako uzupełnienie komentarza Davida Batisty.

Algorytm Baulma-Welcha (BM) jest algorytmem maksymalizacji oczekiwań, który rozwiązuje oszacowanie maksymalnego prawdopodobieństwa (MLE) w celu wyszkolenia HMM, gdy stany są nieznane / ukryte (trening bez nadzoru).

Ale jeśli znasz stany, możesz użyć metody MLE (która nie będzie BM), aby dopasować model do pary danych / stanów w nadzorowany sposób.

PierreE
źródło