Wyjaśnienie maksymalizacji oczekiwań

11

Znalazłem bardzo pomocny samouczek dotyczący algorytmu EM .

Przykład i zdjęcie z samouczka jest po prostu genialne.

wprowadź opis zdjęcia tutaj

Powiązane pytanie dotyczące obliczania prawdopodobieństwa, jak działa maksymalizacja oczekiwań?

Mam inne pytanie dotyczące połączenia teorii opisanej w samouczku z przykładem.

Podczas kroku E, EM wybiera funkcję która ogranicza i dla której .gtlogP.(x;Θ)solt(Θ^(t))=logP.(x;Θ^(t))

Więc jaka jest wartość w naszym przykładzie i wygląda na to, że powinna być inna dla każdej iteracji.solt

Ponadto w przykładzie i a następnie stosując je do danych, otrzymujemy i . Co dla mnie wygląda sprzecznie z intuicją. Mieliśmy pewne wcześniejsze założenia, zastosowaliśmy je do danych i uzyskaliśmy nowe założenia, więc dane w jakiś sposób zmieniły założenia. Nie rozumiem, dlaczego nie równa się . 0,6Θ^ZA(0)=0,6Θ^b(0)=0,5Θ^ZA(1)=0,71Θ^b(1)=0,58Θ^(0)Θ^(1)

Ponadto pojawia się więcej pytań, gdy zobaczysz uwagę dodatkową 1 do tego samouczka. Na przykład czym jest w naszym przypadku. Nie jest dla mnie jasne, dlaczego nierówność jest niewielka, gdyQ ( z ) = P ( z | x ; Θ )Q(z)Q(z)=P.(z|x;Θ)

Dziękuję Ci.

użytkownik16168
źródło

Odpowiedzi:

1

Uważam te notatki za bardzo pomocne w ustaleniu, co się dzieje w materiale uzupełniającym.

Odpowiem na te pytania trochę nie w porządku, aby zapewnić ciągłość.


Po pierwsze: dlaczego tak jest

θ(0)θ(1)

Powodem jest to, że nasza funkcja jest wybrana w taki sposób, że jest gwarantowana, że ​​jest mniejsza lub równa , przy czym 2 jest incydentem w punkcie naszego początkowego zgadywania . Gdyby nasze wcześniejsze założenia były idealnymi początkowymi przypuszczeniami, to miałbyś rację i pozostałby niezmieniony. Ale możemy znaleźć wyższe wartości w utworzonej funkcji , więc nasza następna iteracja parametru dla jest bardziej prawdopodobna niż nasza pierwotna.sol0log(P.(x;θ))θ(0)θ(1)sol0θ


Po drugie: dlaczego nierówność jest niska, kiedy

Q(z)=P.(z|x;θ)

W przypisach znajduje się wskazówka, w której napisano:

równość obowiązuje wtedy i tylko wtedy, gdy zmienna losowa jest stała z prawdopodobieństwem 1 (tj. )y=mi[y]

sugerując, że nasz wybór powoduje, że stały. Aby to zobaczyć, weź pod uwagę, że:QP.(x,z;θ)Q(z)

P.(x,z;θ)=P.(z|x;θ)P.(x;θ)

co stanowi naszą frakcję

P.(z|x;θ)P.(x;θ)P.(z|x;θ)=P.(x;θ)

Czym jest i czy jest stałe? Weźmy pod uwagę, że obliczamy sumy powyżej dla których ten termin jest niezależny (stały). Przedstawmy to jako i to równanie stanie się:P.(x;θ)zdo

log(zQ(z)do)zQ(z)log(do)

z tego miejsca dość szybko możemy zobaczyć, że 2 strony są równe, ponieważ oczekiwanie stałej będzie takie bez względu na wagi ( )Q(z)


Wreszcie: co to jestsolt

Odpowiedź podana w notatkach, które podłączyłem, różni się nieco od odpowiedzi w uwagach uzupełniających, ale różnią się one tylko stałą, a my ją maksymalizujemy, więc nie ma to znaczenia. Ten w notatkach (z pochodnymi) to:

solt(θ)=log(P.(x|θ(t)))+zP.(z|x;θ(t))log(P.(x|z;θ)P.(z|θ)P.(z|x;θ(t))P.(x|θ(t)))

Ta złożona formuła nie jest szczegółowo omawiana w uwagach uzupełniających, prawdopodobnie dlatego, że wiele z tych terminów będzie stałymi, które zostaną wyrzucone, gdy zmaksymalizujemy. Jeśli jesteś zainteresowany tym, w jaki sposób tu docieramy, polecam te notatki, które podłączyłem.

Korzystając z argumentu podobnego do przedstawionego w odpowiedzi na drugie pytanie, wartość w dzienniku jest równa 1 dla więc suma znika i zgodnie z oczekiwaniami.g t ( θ ( t ) ) = log P ( x | θ ( t ) )solt(θ(t))solt(θ(t))=logP.(x|θ(t))

Mikrofon
źródło