EM nie jest potrzebne zamiast korzystania z jakiejś techniki numerycznej, ponieważ EM jest również metodą numeryczną. Nie zastępuje więc Newtona-Raphsona. EM ma zastosowanie w konkretnym przypadku, gdy brakuje wartości w macierzy danych. Należy rozważyć przykładowy , który ma gęstość warunkowego f X | Θ ( x | θ ) . Zatem logarytmiczne prawdopodobieństwo tego wynosi
l ( θ ; X ) = l o g f X | ΘX= ( X1, . . . , Xn)faX| Θ( x | θ )
Załóżmy teraz, że nie masz pełnego zestawu danych takiego, że X składa się z obserwowanych danych Y i brakujących (lub ukrytych) zmiennych Z , takich, że X = ( Y , Z ) . Zatem logarytmiczne prawdopodobieństwo dla obserwowanych danych wynosi
l o b s ( θ , Y ) = l o g ∫ f X | Θ ( Y , z | θ ) ν z (
l ( θ ; X) = l o gfaX| Θ( X| θ)
XYZX= ( Y, Z)
Na ogół nie można obliczyć To zintegrowane bezpośrednio i nie będzie rozwiązanie zamkniętej formy za
l o b s ( θ , Y ) . W tym celu używasz metody EM. Istnieją dwa kroki, które są iterowane dlaczasów
i . W tym
( ı + 1 ) T h kroku to etap oczekiwania, w którym obliczenia
Q ( θ | θ ( I ) ) = E θ ( I ) [ l ( θlo b s( θ , Y) = l o g∫faX| Θ( Y, z| θ) νz( dz)
lo b s( θ , Y)ja( i + 1 )t godz
gdzie
θ ( i ) jest oszacowaniem
Θ na etapie
i t h . Następnie oblicz krok maksymalizacji, w którym maksymalizujesz
Q ( θ | θ ( i ) ) w odniesieniu do
θ i ustawiasz
θ ( i + 1 ) = m a x Q ( θ | θ i )Q ( θ | θ( i )) = Eθ( i )[ l ( θ ; X| Y]
θ( i )Θjat godzQ ( θ | θ( i ))θθ( i + 1 )= m a x Q ( θ | θja). Następnie powtarzaj te kroki, aż metoda zbiega się do pewnej wartości, która będzie Twoim oszacowaniem.
Jeśli potrzebujesz więcej informacji na temat metody, jej właściwości, dowodów lub aplikacji, po prostu zajrzyj do odpowiedniego artykułu na Wiki .
EM jest stosowany, ponieważ często niemożliwe lub niemożliwe jest bezpośrednie obliczenie parametrów modelu, który maksymalizuje prawdopodobieństwo zbioru danych przy danym modelu.
źródło