EM, czy istnieje intuicyjne wyjaśnienie?

16

Dla niewtajemniczonych procedura EM wydaje się mniej więcej czarną magią. Oszacuj parametry HMM (na przykład) przy użyciu nadzorowanych danych. Następnie zdekoduj nieoznaczone dane, używając „wstecz” do „zliczania” zdarzeń tak, jakby dane były oznaczone mniej więcej. Dlaczego to sprawia, że ​​model jest lepszy? Wiem coś o matematyce, ale wciąż pragnę jakiegoś mentalnego obrazu tego.

bmargulies
źródło
Nie jestem pewien, ale myślę, że można to zinterpretować jako procedurę optymalizacji gradientu stocastycznego. Pomyślę o tym ...
Robin Girard

Odpowiedzi:

12

Aby zaoszczędzić trochę pisania, wywołaj obserwowane dane , brakujące dane (np. Ukryte stany HMM) i wektor parametrów, który próbujemy znaleźć (np. Prawdopodobieństwo przejścia / emisji).Z QXZQ

Intuicyjne wyjaśnienie polega na tym, że w zasadzie oszukujemy, udajemy przez chwilę, że znamy , abyśmy mogli znaleźć warunkowy rozkład Z, który z kolei pozwala nam znaleźć MLE dla (ignorując w tym momencie fakt, że zasadniczo tworzymy okólnik argument), a następnie przyznamy, że oszukiwaliśmy, dodaliśmy nową, lepszą wartość dla i robimy to od nowa, dopóki nie będziemy musieli już oszukiwać.Q QQQQ

Nieco bardziej technicznie, udając, że znamy rzeczywistą wartość , możemy udawać, że wiemy coś o warunkowym rozkładzieZ | { X , Q } Q Q Z | { X , Q } QQZ|{X,Q} , co pozwala nam poprawić nasze oszacowanie dla , które teraz udajemy rzeczywista wartość , abyśmy mogli udawać, że wiemy coś o rozkładzie warunkowym , co pozwala nam poprawić nasze oszacowanie dla , które ... i tak dalej.QQZ|{X,Q}Q

Jeszcze bardziej technicznie, gdybyśmy znali , moglibyśmy zmaksymalizować i uzyskać prawidłową odpowiedź. Problem polega na tym, że nie znamylog ( f ( Q | X , Z ) ) Z Q Z X QZlog(f(Q|X,Z))Z i wszelkie oszacowania muszą od tego zależeć. Ale jeśli chcemy znaleźć najlepsze oszacowanie (lub dystrybucja) do , to musimy wiedzieć, i . Utknęliśmy w sytuacji z kurczakiem i jajkiem, jeśli chcemy analitycznie uzyskać unikalnego maksymalizatora.QZXQ

Nasze „out” jest takie, że - dla każdego oszacowania (nazywamy to ) - możemy znaleźć rozkład , dzięki czemu możemy zmaksymalizować nasze oczekiwane wspólne prawdopodobieństwo logarytmiczne , w odniesieniu do rozkładu warunkowego . Ten rozkład warunkowy w zasadzie mówi nam, w jaki sposób zależy od bieżącej wartości biorąc pod uwagę , i pozwala nam wiedzieć, jak zmienić aby zwiększyć nasze prawdopodobieństwo zarówno dla jak i jednocześnie dla konkretnej wartości (którą mamy o nazwieQQnZ|{Qn,X}Q|{X,Z}Z|{Qn,X}ZQXQQZQQn). Po wybraniu nowego mamy inny rozkład warunkowy dla i dlatego musimy ponownie obliczyć oczekiwanie.Qn+1Z|{Qn+1,X}

Bogaty
źródło