W tym popularnym pytaniu , wysoko oceniona odpowiedź powoduje, że MLE i Baum Welch są osobni w dopasowaniu HMM.
W przypadku problemu szkoleniowego możemy użyć następujących 3 algorytmów: MLE (szacowanie maksymalnego prawdopodobieństwa), szkolenie Viterbi (NIE mylić z dekodowaniem Viterbi), Baum Welch = algorytm przewijania do przodu
ALE w Wikipedii , mówi
Algorytm Bauma – Welcha wykorzystuje dobrze znany algorytm EM w celu znalezienia oszacowania maksymalnego prawdopodobieństwa parametrów
Jaki jest zatem związek między MLE a algorytmem Bauma – Welcha?
Moja próba: celem algorytmu Bauma – Welcha jest maksymalizacja prawdopodobieństwa, ale wykorzystuje on specjalistyczny algorytm (EM) do rozwiązania optymalizacji. Nadal możemy zmaksymalizować prawdopodobieństwo, stosując inne metody, takie jak przyzwoity gradient. Właśnie dlatego odpowiedź rozdziela dwa algorytmy.
Czy mam rację i czy ktoś może mi pomóc w wyjaśnieniu?
Odpowiedzi:
Zapoznaj się z jedną z odpowiedzi (autorstwa Masterfool) z podanego linku do pytania,
I zgadzam się z odpowiedzią PierreE tutaj, algorytm Bauma – Welcha służy do rozwiązania maksymalnego prawdopodobieństwa w HHM. Jeśli stany są znane (nadzorowana, oznakowana sekwencja), wówczas stosowana jest inna metoda maksymalizująca MLE (być może po prostu policz częstotliwość każdej emisji i przejścia zaobserwowanej w danych treningowych, patrz slajdy dostarczone przez Francka Dernoncourta).
W ustawieniach MLE dla HMM nie sądzę, aby można było po prostu używać spadku gradientu, ponieważ prawdopodobieństwo (lub log-prawdopodobieństwo) nie ma rozwiązania w postaci zamkniętej i musi być rozwiązane iteracyjnie, tak jak w przypadku modele mikstur, więc przechodzimy do EM. (Zobacz więcej szczegółów w Bishop, Księga rozpoznawania wzorców, rozdział 13.2.1 Pg614)
źródło
Algorytm maksymalizacji oczekiwań (EM) jest bardziej ogólny, a algorytm Baum-Welcha jest po prostu jego instancją, a EM jest iteracyjnym algorytmem dla maksymalnego prawdopodobieństwa (ML). Zatem algorytm Baum-Welcha jest również algorytmem iteracyjnym dla maksymalnego prawdopodobieństwa.
Zwykle istnieją trzy algorytmy optymalizacji dla oszacowania maksymalnego prawdopodobieństwa (podejście częste): 1) opadanie gradientu; 2) Markov Chain Monte Carlo; 3) maksymalizacja oczekiwań.
źródło
To pytanie jest obecne od kilku miesięcy, ale ta odpowiedź może pomóc nowym czytelnikom jako uzupełnienie komentarza Davida Batisty.
Algorytm Baulma-Welcha (BM) jest algorytmem maksymalizacji oczekiwań, który rozwiązuje oszacowanie maksymalnego prawdopodobieństwa (MLE) w celu wyszkolenia HMM, gdy stany są nieznane / ukryte (trening bez nadzoru).
Ale jeśli znasz stany, możesz użyć metody MLE (która nie będzie BM), aby dopasować model do pary danych / stanów w nadzorowany sposób.
źródło