Dlaczego stosuje się algorytm maksymalizacji oczekiwań?

22

Z tego, co niewiele wiem, algorytm EM można wykorzystać do znalezienia maksymalnego prawdopodobieństwa przy zerowaniu pochodnych cząstkowych w odniesieniu do parametrów prawdopodobieństwa daje zestaw równań, których nie można rozwiązać analitycznie. Ale czy algorytm EM jest potrzebny zamiast jakiejś techniki numerycznej, aby znaleźć maksimum prawdopodobieństwa w odniesieniu do ograniczenia zbioru wspomnianych równań.

użytkownik782220
źródło

Odpowiedzi:

20

Pytanie jest uzasadnione i miałem takie samo zamieszanie, kiedy po raz pierwszy nauczyłem się algorytmu EM.

Ogólnie rzecz biorąc, algorytm EM definiuje proces iteracyjny, który pozwala zmaksymalizować funkcję prawdopodobieństwa modelu parametrycznego w przypadku, gdy niektóre zmienne modelu są (lub są traktowane jako) „utajone” lub nieznane.

Teoretycznie w tym samym celu można użyć algorytmu minimalizacji do numerycznego znalezienia maksimum funkcji wiarygodności dla wszystkich parametrów. Jednak w rzeczywistej sytuacji minimalizacja ta byłaby:

  1. znacznie bardziej wymagające obliczeniowo
  2. mniej solidny

Bardzo powszechnym zastosowaniem metody EM jest dopasowanie modelu mieszanki. W tym przypadku, biorąc pod uwagę zmienną, która przypisuje każdą próbkę do jednego ze składników jako zmienne „utajone”, problem jest znacznie uproszczony.

Spójrzmy na przykład. Mamy N próbek wyekstrahowanych z mieszaniny 2 rozkładów normalnych. Aby znaleźć parametry bez EM, powinniśmy zminimalizować:s={sja}

-logL.(x,θ)=-log[za1exp((x-μ1)2)2)σ12))+za2)exp((x-μ2))2)2)σ2)2))]

Przeciwnie, stosując algorytm EM, najpierw „przypisujemy” każdą próbkę do komponentu ( krok E ), a następnie dopasowujemy (lub maksymalizujemy prawdopodobieństwo ) każdego komponentu osobno ( krok M ). W tym przykładzie krok M jest po prostu średnią ważoną do znalezienia i σ k . Iteracja po tych dwóch krokach jest prostszym i bardziej niezawodnym sposobem na zminimalizowanie - log L ( x , θ ) .μkσk-logL.(x,θ)

użytkownik2304916
źródło
12

EM nie jest potrzebne zamiast korzystania z jakiejś techniki numerycznej, ponieważ EM jest również metodą numeryczną. Nie zastępuje więc Newtona-Raphsona. EM ma zastosowanie w konkretnym przypadku, gdy brakuje wartości w macierzy danych. Należy rozważyć przykładowy , który ma gęstość warunkowego f X | Θ ( x | θ ) . Zatem logarytmiczne prawdopodobieństwo tego wynosi l ( θ ; X ) = l o g f X | ΘX=(X1,...,Xn)faX|Θ(x|θ) Załóżmy teraz, że nie masz pełnego zestawu danych takiego, że X składa się z obserwowanych danych Y i brakujących (lub ukrytych) zmiennych Z , takich, że X = ( Y , Z ) . Zatem logarytmiczne prawdopodobieństwo dla obserwowanych danych wynosi l o b s ( θ , Y ) = l o g f X | Θ ( Y , z | θ ) ν z (

l(θ;X)=losolfaX|Θ(X|θ)
XYZX=(Y,Z) Na ogół nie można obliczyć To zintegrowane bezpośrednio i nie będzie rozwiązanie zamkniętej formy za l o b s ( θ , Y ) . W tym celu używasz metody EM. Istnieją dwa kroki, które są iterowane dlaczasów i . W tym ( ı + 1 ) T h kroku to etap oczekiwania, w którym obliczenia Q ( θ | θ ( I ) ) = E θ ( I ) [ l ( θ
lobs(θ,Y)=losolfaX|Θ(Y,z|θ)νz(rez)
lobs(θ,Y)ja(ja+1)th gdzie θ ( i ) jest oszacowaniem Θ na etapie i t h . Następnie oblicz krok maksymalizacji, w którym maksymalizujesz Q ( θ | θ ( i ) ) w odniesieniu do θ i ustawiasz θ ( i + 1 ) = m a x Q ( θ | θ i )
Q(θ|θ(ja))=miθ(ja)[l(θ;X|Y]
θ(ja)ΘjathQ(θ|θ(ja))θθ(ja+1)=mzaxQ(θ|θja). Następnie powtarzaj te kroki, aż metoda zbiega się do pewnej wartości, która będzie Twoim oszacowaniem.

Jeśli potrzebujesz więcej informacji na temat metody, jej właściwości, dowodów lub aplikacji, po prostu zajrzyj do odpowiedniego artykułu na Wiki .

Andy
źródło
1
+1 ... EM dotyczy nie tylko przypadku brakujących wartości.
Glen_b
@Andy: Nawet biorąc pod uwagę przypadek brakujących danych, nadal nie rozumiem, dlaczego stosowanie ogólnych metod numerycznych w celu znalezienia punktu, w którym częściowe pochodne są zerowe, nie działa.
user782220,
Dzięki Glen, wiedziałem o tym tylko w kontekście brakujących wartości / ukrytych zmiennych. @ user782220: gdy nie możesz mieć zamkniętej formy rozwiązania pochodnej prawdopodobieństwa dziennika, ustawienie pochodnej równej zero nie zidentyfikuje twojego parametru. Dlatego w tym przypadku używasz metod numerycznych. Aby uzyskać wyjaśnienie i przykład, zobacz wykład tutaj: people.stat.sfu.ca/~raltman/stat402/402L5.pdf
Andy
1

EM jest stosowany, ponieważ często niemożliwe lub niemożliwe jest bezpośrednie obliczenie parametrów modelu, który maksymalizuje prawdopodobieństwo zbioru danych przy danym modelu.

TheGrimmScientist
źródło