Zastosowanie maksymalizacji oczekiwań do przykładów rzutu monetą

18

Ostatnio studiowałem samemu Maksymalizację oczekiwań i w tym czasie zdobyłem kilka prostych przykładów:

Od tutaj : Istnieją trzy monety c0 , i z , i odpowiednie prawdopodobieństwa do lądowania na głowie, kiedy rzucił. Rzuć . Jeśli wynikiem jest Głowa, rzuć trzy razy, w przeciwnym razie rzuć trzy razy. Obserwowane dane wytworzone przez i są następujące: HHH, TTT, HHH, TTT, HHH. Ukryte dane są wynikiem . Oszacuj , i .c1c2p0p1p2c0c1c2c1c2c0p0p1p2

I stąd : Istnieją dwie monety i przy czym i są odpowiednim prawdopodobieństwem wylądowania na Głowie po rzuceniu. W każdej rundzie wybierz losowo jedną monetę i rzuć nią dziesięć razy; zapisz wyniki. Zaobserwowane dane to wyniki losowania tych dwóch monet. Nie wiemy jednak, która moneta została wybrana w danej rundzie. Oszacuj i .cAcBpApBpApB

Chociaż mogę uzyskać obliczenia, nie mogę powiązać sposobów ich rozwiązania z pierwotną teorią EM. W szczególności podczas kroku M obu przykładów nie widzę, jak coś maksymalizują. Wygląda na to, że ponownie obliczają parametry i nowe parametry są lepsze od starych. Co więcej, dwa E-Kroki nawet nie wyglądają podobnie, nie wspominając już o E-Kroku z oryginalnej teorii.

Jak dokładnie działają te przykłady?

IcySnow
źródło
W pierwszym przykładzie, ile mamy przypadków tego samego eksperymentu? W drugim przykładzie, jakie jest prawo „losowego wybierania jednej monety”? Ile rund obserwujemy?
Raphael
Pliki PDF, które podłączyłem, rozwiązują te dwa przykłady krok po kroku. Jednak tak naprawdę nie rozumiem zastosowanego algorytmu EM.
IcySnow
@IcySnow, czy rozumiesz pojęcie oczekiwania i warunkowego oczekiwania zmiennej losowej?
Nicholas Mancuso
Rozumiem podstawowe oczekiwanie zmiennej losowej i prawdopodobieństwo warunkowe. Nie znam jednak przewidywania warunkowego, jego pochodnej i wystarczającej statystyki.
IcySnow,

Odpowiedzi:

12

(Ta odpowiedź używa drugiego podanego linku).

Przywołaj definicję prawdopodobieństwa: gdzie w naszym przypadku są estymatorami prawdopodobieństwa, że ​​monety odpowiednio A i B wylądują, jest naszych eksperymentów, każdy składający się z 10 rzutów, a jest monetą używaną w każdym eksperymencie.

L[θ|X]=Pr[X|θ]=ZPr[X,Z|θ]
θ=(θA,θB)X=(X1,,X5)XiZ=(Z1,,Z5)

Chcemy znaleźć estymator największego prawdopodobieństwa . Algorytm Expectation-Maximization (EM) jest jedną z takich metod znalezienia (przynajmniej lokalnego) . Działa poprzez znalezienie warunkowego oczekiwania, które jest następnie wykorzystywane do maksymalizacji . Chodzi o to, że stale znajdując bardziej prawdopodobne (tj. Bardziej prawdopodobne) w każdej iteracji, będziemy stale zwiększać co z kolei zwiększa funkcję prawdopodobieństwa. Istnieją trzy rzeczy, które należy zrobić, zanim przystąpisz do projektowania algorytmu opartego na EM.θ^θ^θθPr[X,Z|θ]

  1. Skonstruuj model
  2. Oblicz oczekiwanie warunkowe w ramach modelu (E-Step)
  3. Zmaksymalizuj nasze prawdopodobieństwo, aktualizując nasze aktualne oszacowanie (M-Step)θ

Zbuduj model

Zanim przejdziemy dalej z EM, musimy dowiedzieć się, co dokładnie obliczamy. W kroku E obliczamy dokładnie oczekiwaną wartość dla . Jaka jest więc ta wartość? Zauważ, że Powodem jest to, że mamy na koncie 5 eksperymentów i nie wiemy, jaką monetę użyto w każdym z nich. Nierówność wynika zlogPr[X,Z|θ]

logPr[X,Z|θ]=i=15logC{A,B}Pr[Xi,Zi=C|θ]=i=15logC{A,B}Pr[Zi=C|Xi,θ]Pr[Xi,Zi=C|θ]Pr[Zi=C|Xi,θ]i=15C{A,B}Pr[Zi=C|Xi,θ]logPr[Xi,Zi=C|θ]Pr[Zi=C|Xi,θ].
logbycie wklęsłym i stosowanie nierówności Jensena. Powodem, dla którego potrzebujemy tej dolnej granicy, jest to, że nie możemy bezpośrednio obliczyć argmax do pierwotnego równania. Możemy to jednak obliczyć dla końcowej dolnej granicy.

Co to jest ? Jest prawdopodobieństwo, że zobaczymy monetę biorąc pod uwagę eksperyment i . Korzystając z prawdopodobieństw warunkowych, mamyPr[Zi=C|Xi,θ]CXiθ

Pr[Zi=C|Xi,θ]=Pr[Xi,Zi=C|θ]Pr[Xi|θ].

Chociaż poczyniliśmy pewne postępy, jeszcze nie skończyliśmy z modelem. Jakie jest prawdopodobieństwo, że dana moneta przerzuci sekwencję ? Pozwalając Teraz jest wyraźnie tylko prawdopodobieństwo pod obiema możliwościami lub . Ponieważ mamy, Xihi=#heads in Xi

Pr[Xi,Zi=C|θ]=12θChi(1θC)10hi,  for  C{A,B}.
Pr[Xi|θ]Zi=AZi=BPr[Zi=A]=Pr[Zi=B]=1/2
Pr[Xi|θ]=1/2(Pr[Xi|Zi=A,θ]+Pr[Xi|Zi=B,θ]).

E-Step

Okej ... to nie było takie fajne, ale teraz możemy zacząć pracę nad EM. Algorytm EM zaczyna się od losowego odgadnięcia dla . W tym przykładzie mamy . Obliczamy Ta wartość jest zgodna z zawartością papieru. Teraz możemy obliczyć oczekiwaną liczbę głów w z monety , Robiąc to samo dla monety otrzymujemy, θθ0=(0.6,0.5)

Pr[Z1=A|X1,θ]=1/2(0.650.45)1/2((0.650.45)+(0.550.55))0.45.
X1=(H,T,T,T,H,H,T,H,T,H)A
E[#heads by coin A|X1,θ]=h1Pr[Z1=A|X1,θ]=50.452.2.
B
E[#heads by coin B|X1,θ]=h1Pr[Z1=B|X1,θ]=50.552.8.
Możemy to samo obliczyć dla liczby ogonów, podstawiając na . Dotyczy to wszystkich innych wartości i . Dzięki liniowości oczekiwań możemy dowiedzieć się h110h1Xihi 1i5
E[#heads by coin A|X,θ]=i=15E[#heads by coin A|Xi,θ]

M-Step

Z naszymi oczekiwanymi wartościami nadchodzi teraz krok M, w którym chcemy zmaksymalizować biorąc pod uwagę nasze oczekiwane wartości. Odbywa się to poprzez zwykłą normalizację! Podobnie jest w przypadku . Proces ten zaczyna się od E-Step i i trwa do momentu, aż wartości dla zbiegną się (lub osiągną dopuszczalny próg). W tym przykładzie mamy 10 iteracji i . W każdej iteracji wartość rośnie, ze względu na lepsze oszacowanieθ

θA1=E[#heads over X by coin A|X,θ]E[#heads and tails over X by coin A|X,θ]=21.321.3+9.60.71.
Bθ1θθ^=θ10=(0.8,0.52)Pr[X,Z|θ]θ .

Teraz w tym przypadku model był dość uproszczony. Sprawy mogą się znacznie skomplikować dość szybko, jednak algorytm EM zawsze będzie zbieżny i zawsze da maksymalne prawdopodobieństwo estymatora . Może to być lokalny estymator, ale aby obejść ten problem, możemy po prostu zrestartować proces EM z inną inicjalizacją. Możemy to zrobić stałą ilość razy i zachować najlepsze wyniki (tj. Te o najwyższym prawdopodobieństwie końcowym).θ^

Nicholas Mancuso
źródło
Jeśli jakieś części nie są jasne, mogę również spróbować je rozwinąć.
Nicholas Mancuso,
Teraz robi się o wiele wyraźniej. Naprawdę nie rozumiem, dlaczego oczekiwana liczba głów do monety A została obliczona jako: E [# główki do monety A | X1, θ] = h1⋅Pr [Z1 = A | X1, θ] = 5⋅0,45 ≈2,2? Problem wymieniony w pierwszym pliku PDF jest bardziej skomplikowany. Jeśli nie masz nic przeciwko, czy możesz również wykonać kilka przykładowych obliczeń? Wielkie dzięki za odpowiedź.
IcySnow
@IcySnow, jeśli chodzi o obliczenia: głosi . Powodem jest to, że można pomyśleć o istnieniu innej zmiennej losowej wskaźnika, jeśli użyto A. Obliczenie oczekiwań względem zmiennych wskaźnikowych jest proste prawdopodobieństwo tego zdarzenia. E[# heads by coin A|X1,θ]=# heads in X1Pr[Z1=A|X1,θ]=5Pr[Z1=A|X1,θ]
Nicholas Mancuso
Przepraszam za powolną odpowiedź. Dzięki tobie mogę teraz naprawdę zrozumieć logikę dwóch przykładów monet, po wielokrotnym przejrzeniu twojej odpowiedzi. Chciałbym zadać jeszcze jedną ostatnią rzecz dotyczącą tego pytania: Przykład zaczynający się od strony 8 w tym slajdzie cs.northwestern.edu/~ddowney/courses/395_Winter2010/em.ppt pokazuje, że w M-Step musimy najpierw obliczyć pochodna funkcji logarytmu wiarygodności i użyj jej, aby zmaksymalizować oczekiwanie. Dlaczego coś takiego nie jest w M-Steps przykładów rzucania monetą? Ponieważ te M-Stepy nie wyglądają, jakby coś maksymalizowały
IcySnow
Jestem zdezorientowany pierwszym wyświetlonym równaniem po „Konstruowaniu modelu”. Czy możesz wyjaśnić, skąd to się wzięło? Wygląda mi na , więc suma wewnętrzna wynosi 1 dla każdego i , więc cała prawa strona staje się zerowa. Jestem pewien, że coś mi umknęło - czy możesz wyjaśnić, w jaki sposób doszedłeś do tego równania? Pr[Zi=A|Xi,θ]+Pr[Zi=B|Xi,θ]=1i
DW