Dla niewtajemniczonych procedura EM wydaje się mniej więcej czarną magią. Oszacuj parametry HMM (na przykład) przy użyciu nadzorowanych danych. Następnie zdekoduj nieoznaczone dane, używając „wstecz” do „zliczania” zdarzeń tak, jakby dane były oznaczone mniej więcej. Dlaczego to sprawia, że model jest lepszy? Wiem coś o matematyce, ale wciąż pragnę jakiegoś mentalnego obrazu tego.
expectation-maximization
intuition
bmargulies
źródło
źródło
Odpowiedzi:
Aby zaoszczędzić trochę pisania, wywołaj obserwowane dane , brakujące dane (np. Ukryte stany HMM) i wektor parametrów, który próbujemy znaleźć (np. Prawdopodobieństwo przejścia / emisji).Z QX Z Q
Intuicyjne wyjaśnienie polega na tym, że w zasadzie oszukujemy, udajemy przez chwilę, że znamy , abyśmy mogli znaleźć warunkowy rozkład Z, który z kolei pozwala nam znaleźć MLE dla (ignorując w tym momencie fakt, że zasadniczo tworzymy okólnik argument), a następnie przyznamy, że oszukiwaliśmy, dodaliśmy nową, lepszą wartość dla i robimy to od nowa, dopóki nie będziemy musieli już oszukiwać.Q QQ Q Q
Nieco bardziej technicznie, udając, że znamy rzeczywistą wartość , możemy udawać, że wiemy coś o warunkowym rozkładzieZ | { X , Q } Q Q Z | { X , Q } QQ Z|{X,Q} , co pozwala nam poprawić nasze oszacowanie dla , które teraz udajemy rzeczywista wartość , abyśmy mogli udawać, że wiemy coś o rozkładzie warunkowym , co pozwala nam poprawić nasze oszacowanie dla , które ... i tak dalej.Q Q Z|{X,Q} Q
Jeszcze bardziej technicznie, gdybyśmy znali , moglibyśmy zmaksymalizować i uzyskać prawidłową odpowiedź. Problem polega na tym, że nie znamylog ( f ( Q | X , Z ) ) Z Q Z X QZ log(f(Q|X,Z)) Z i wszelkie oszacowania muszą od tego zależeć. Ale jeśli chcemy znaleźć najlepsze oszacowanie (lub dystrybucja) do , to musimy wiedzieć, i . Utknęliśmy w sytuacji z kurczakiem i jajkiem, jeśli chcemy analitycznie uzyskać unikalnego maksymalizatora.Q Z X Q
Nasze „out” jest takie, że - dla każdego oszacowania (nazywamy to ) - możemy znaleźć rozkład , dzięki czemu możemy zmaksymalizować nasze oczekiwane wspólne prawdopodobieństwo logarytmiczne , w odniesieniu do rozkładu warunkowego . Ten rozkład warunkowy w zasadzie mówi nam, w jaki sposób zależy od bieżącej wartości biorąc pod uwagę , i pozwala nam wiedzieć, jak zmienić aby zwiększyć nasze prawdopodobieństwo zarówno dla jak i jednocześnie dla konkretnej wartości (którą mamy o nazwieQ Qn Z|{Qn,X} Q|{X,Z} Z|{Qn,X} Z Q X Q Q Z Q Qn ). Po wybraniu nowego mamy inny rozkład warunkowy dla i dlatego musimy ponownie obliczyć oczekiwanie.Qn+1 Z|{Qn+1,X}
źródło