Jaka jest różnica między algorytmami EM (Expectation Maximization) a Gradient Ascent (or descent)? Czy są jakieś warunki, w których są one równoważne?
Jaka jest różnica między algorytmami EM (Expectation Maximization) a Gradient Ascent (or descent)? Czy są jakieś warunki, w których są one równoważne?
Z:
Xu L i Jordan MI (1996). O właściwościach konwergencji algorytmu EM dla mieszanek gaussowskich . Obliczenia neuronowe 2: 129-151.
Abstrakcyjny:
Pokazujemy, że krok EM w przestrzeni parametrów jest uzyskiwany z gradientu za pomocą macierzy projekcji P, i zapewniamy wyraźne wyrażenie dla macierzy.
Strona 2
W szczególności pokazujemy, że krok EM można uzyskać przez wstępne pomnożenie gradientu przez dodatnią macierz denitową. Zapewniamy wyraźne wyrażenie dla macierzy ...
Strona 3
Oznacza to, że algorytm EM może być postrzegany jako algorytm zmiennej gradientu wznoszenia gradientu ...
Oznacza to, że artykuł zawiera wyraźne przekształcenia algorytmu EM w gradient ascent, Newton, quasi-Newton.
Istnieją inne metody znajdowania oszacowań maksymalnego prawdopodobieństwa, takie jak opadanie gradientu, gradient sprzężony lub odmiany metody Gaussa-Newtona. W przeciwieństwie do EM, takie metody zazwyczaj wymagają oceny pierwszej i / lub drugiej pochodnej funkcji prawdopodobieństwa.
Nie, nie są równoważne. W szczególności konwergencja EM jest znacznie wolniejsza.
Jeśli interesuje Cię optymalizacja z punktu widzenia EM, w tym artykule zobaczysz, że algorytm EM jest szczególnym przypadkiem szerszej klasy algorytmów (algorytmy punktów bliższych).
źródło