Wyprowadzanie estymatorów maksymalnego prawdopodobieństwa
Załóżmy, że mamy losowych wektorów, każdy o rozmiarze : gdzie każdy losowy wektor może być interpretowane jako obserwacja (punkt danych) między zmiennymi . Jeśli każdy jest oznaczony jako wielowymiarowe wektory gaussowskie:s x ( 1 ) , x ( 2 ) , . . . , X ( m ) p X ( i )mpX( 1 ), X( 2 ), . . . , X( m )pX( i )
X( i )∼ N.p( μ , Σ )
Gdzie parametry są nieznane. Aby uzyskać ich oszacowanie, możemy zastosować metodę maksymalnego prawdopodobieństwa i zmaksymalizować funkcję prawdopodobieństwa log.μ , Σ
Zauważ, że dzięki niezależności losowych wektorów łączna gęstość danych jest iloczynem poszczególnych gęstości , czyli . Biorąc logarytm daje funkcję prawdopodobieństwa log∏ m i = 1 f X ( i ) ( x ( i ) ; μ , Σ ){ X( i ), I = 1 , 2 , . . . , m }∏mi = 1faX( i )( x( i ); μ , Σ )
l ( μ , Σ | x( i ))= log∏i = 1mfaX( i )( x( i )|μ,Σ)=log ∏i=1m1(2π)p/2|Σ|1/2exp(−12(x(i)−μ)TΣ−1(x(i)−μ))=∑i=1m(−p2log(2π)−12log|Σ|−12(x(i)−μ)TΣ−1(x(i)−μ))
l ( μ , Σ ; )= - mp2)log( 2 π) - m2)log| Σ | - 12)∑i = 1m( x( i )- μ)T.Σ- 1( x( i )- μ )
Wyprowadzanieμ^
Aby przyjąć pochodną w odniesieniu do i zrównać z zerem, wykorzystamy następującą tożsamość rachunku macierzowego:μ
wAA∂wT.A w∂w= 2 A w jesli
nie zalezy od i jest symetryczny.wZAZA
∂∂μl ( μ , Σ | x( i ))0μ^= ∑i = 1mΣ- 1( μ - x( i )) =0Ponieważ Σ jest pozytywnie określone= m μ - ∑i = 1mx( i )= 1m∑i = 1mx( i )= x¯
Który jest często nazywany średnim wektorem próbki .
WyprowadzanieΣ^
Wyznaczenie MLE dla macierzy kowariancji wymaga więcej pracy i zastosowania następujących właściwości algebry liniowej i rachunku różniczkowego:
- Śledzenie jest niezmienne przy cyklicznych permutacjach produktów matrycowych:t r [ A CB ] = t r [ CA B ] = t r [ B CA ]
- Ponieważ jest skalarny, możemy pobrać jego ślad i uzyskać tę samą wartość:x t A x = t r [ x T A x ] = t r [ x t x A ]xT.AxxtA x = t r [ xT.A x ] = t r [ xtx A ]
- ∂∂ZAtr[AB]=BT
- ∂∂Alog|A|=A−T
Połączenie tych właściwości pozwala nam obliczyć
∂∂AxtAx=∂∂Atr[xTxA]=[xxt]T=xTTxT=xxT
Który jest iloczynem zewnętrznym wektora z samym sobą.x
Możemy teraz ponownie napisać funkcję log-prawdopodobieństwo i obliczyć pochodną wrt (uwaga jest stała) ° CΣ−1C
l(μ,Σ|x(i))∂∂Σ−1l(μ,Σ|x(i))=C−m2log|Σ|−12∑i=1m(x(i)−μ)TΣ−1(x(i)−μ)=C+m2log|Σ−1|−12∑i=1mtr[(x(i)−μ)(x(i)−μ)TΣ−1]=m2Σ−12∑i=1m(x(i)−μ)(x(i)−μ)T Since ΣT=Σ
Zrównanie zera i rozwiązanie dlaΣ
0Σ^=mΣ−∑i=1m(x(i)−μ)(x(i)−μ)T=1m∑i=1m(x(i)−μ^)(x(i)−μ^)T
Źródła
Alternatywny dowód dla który bierze pochodną bezpośrednio względem :Σˆ Σ
Podnoszenie z log-prawdopodobieństwo jak wyżej: gdzie i użyliśmy cyklicznych i liniowych właściwości . Aby obliczyć , najpierw to obserwujemyℓ ( μ , Σ )===do- m2)log| Σ | - 12)∑i = 1mtr [ ( x( i )- μ )T.Σ- 1( x( i )- μ ) ]do- 12)( m log| Σ | + ∑i = 1mtr [ ( x( i )- μ ) ( x( i )- μ )T.Σ- 1] )do- 12)( m log| Σ | +tr [ SμΣ- 1] ) S.μ= ∑mi = 1( x( i )- μ ) ( x( i )- μ )T. tr ∂ℓ / ∂Σ ∂∂Σlog| Σ | = Σ- T= Σ- 1
przy czwartej właściwości powyżej. Aby wziąć pochodną drugiego terminu, potrzebujemy właściwości, że
(z Matrix Cookbook , równanie 63). Stosując to z , otrzymujemy
ponieważ zarówno i są symetryczne. Następnie
∂∂Xtr ( A X- 1B ) = - ( X- 1B A X- 1)T.. B = I ∂∂Σtr [ SμΣ- 1] =- ( Σ- 1S.μΣ- 1)T.= - Σ- 1S.μΣ- 1 Σ S.μ ∂∂Σℓ ( μ , Σ ) ∝ m Σ- 1- Σ- 1S.μΣ- 1.
Ustawienie tego na 0 i przestawienie daje
Σˆ= 1mS.μ.
To podejście wymaga więcej pracy niż standardowe stosowanie pochodnych w odniesieniu do i wymaga bardziej skomplikowanej identyfikacji śladu. Uznałem to za przydatne, ponieważ obecnie potrzebuję wziąć pochodne zmodyfikowanej funkcji prawdopodobieństwa, dla której wydaje się, że znacznie trudniej jest użyć niż .Λ = Σ- 1 ∂/ ∂Σ- 1 ∂/ ∂Σ
źródło