Estymatory maksymalnego prawdopodobieństwa - wielowymiarowy gaussowski

20

Kontekst

Wielowymiarowy gaussowski pojawia się często w uczeniu maszynowym, a następujące wyniki są używane w wielu książkach i kursach ML bez pochodnych.

Biorąc pod uwagę dane w postaci macierzy o wymiarach , jeżeli założymy, że dane są zgodne ze zmiennym rozkładem Gaussa zmiennym o parametrach średnia ( ) i macierz kowariancji ( ) estymatory maksymalnego prawdopodobieństwa są podane przez:Xm×ppμp×1Σp×p

  • μ^=1mja=1mx(ja)=x¯
  • Σ^=1mja=1m(x(ja)-μ^)(x(ja)-μ^)T.

Rozumiem, że znajomość wielowymiarowego gaussowskiego jest warunkiem wstępnym wielu kursów ML, ale dobrze byłoby mieć pełne wyprowadzenie w samodzielnej odpowiedzi raz na zawsze, ponieważ uważam, że wielu samokształceniowych podskakuje wokół statystyk. strony stackexchange i math.stackexchange szukają odpowiedzi.


Pytanie

Jakie jest pełne wyprowadzenie estymatorów maksymalnego prawdopodobieństwa dla wielowymiarowego Gaussa


Przykłady:

Te uwagi do wykładu (strona 11) na temat liniowej analizy dyskryminacyjnej lub te wykorzystują wyniki i zakładają wcześniejszą wiedzę.

Istnieje również kilka postów, na które częściowo udzielono odpowiedzi lub zamknięto:

Xavier Bourret Sicotte
źródło

Odpowiedzi:

24

Wyprowadzanie estymatorów maksymalnego prawdopodobieństwa

Załóżmy, że mamy losowych wektorów, każdy o rozmiarze : gdzie każdy losowy wektor może być interpretowane jako obserwacja (punkt danych) między zmiennymi . Jeśli każdy jest oznaczony jako wielowymiarowe wektory gaussowskie:s x ( 1 ) , x ( 2 ) , . . . , X ( m ) p X ( i )mpX(1),X(2)),...,X(m)pX(ja)

X(ja)N.p(μ,Σ)

Gdzie parametry są nieznane. Aby uzyskać ich oszacowanie, możemy zastosować metodę maksymalnego prawdopodobieństwa i zmaksymalizować funkcję prawdopodobieństwa log.μ,Σ

Zauważ, że dzięki niezależności losowych wektorów łączna gęstość danych jest iloczynem poszczególnych gęstości , czyli . Biorąc logarytm daje funkcję prawdopodobieństwa logm i = 1 f X ( i ) ( x ( i ) ; μ , Σ ){X(ja),ja=1,2),...,m}ja=1mfaX(ja)(x(ja);μ,Σ)

l(μ,Σ|x(ja))=logja=1mfaX(ja)(x(ja)|μ,Σ)=log ja=1m1(2)π)p/2)|Σ|1/2)exp(-12)(x(ja)-μ)T.Σ-1(x(ja)-μ))=ja=1m(-p2)log(2)π)-12)log|Σ|-12)(x(ja)-μ)T.Σ-1(x(ja)-μ))

l(μ,Σ;)=-mp2)log(2)π)-m2)log|Σ|-12)ja=1m(x(ja)-μ)T.Σ-1(x(ja)-μ)

Wyprowadzanieμ^

Aby przyjąć pochodną w odniesieniu do i zrównać z zerem, wykorzystamy następującą tożsamość rachunku macierzowego:μ

wAAwT.ZAww=2)ZAw jesli nie zalezy od i jest symetryczny.wZAZA

μl(μ,Σ|x(ja))=ja=1mΣ-1(μ-x(ja))=0Od Σ jest pozytywnie określony0=mμ-ja=1mx(ja)μ^=1mja=1mx(ja)=x¯

Który jest często nazywany średnim wektorem próbki .

WyprowadzanieΣ^

Wyznaczenie MLE dla macierzy kowariancji wymaga więcej pracy i zastosowania następujących właściwości algebry liniowej i rachunku różniczkowego:

  • Śledzenie jest niezmienne przy cyklicznych permutacjach produktów matrycowych:tr[ZAdob]=tr[doZAb]=tr[bdoZA]
  • Ponieważ jest skalarny, możemy pobrać jego ślad i uzyskać tę samą wartość:x t A x = t r [ x T A x ] = t r [ x t x A ]xTAxxtZAx=tr[xT.ZAx]=tr[xtxZA]
  • Atr[AB]=BT
  • Alog|A|=AT

Połączenie tych właściwości pozwala nam obliczyć

AxtAx=Atr[xTxA]=[xxt]T=xTTxT=xxT

Który jest iloczynem zewnętrznym wektora z samym sobą.x

Możemy teraz ponownie napisać funkcję log-prawdopodobieństwo i obliczyć pochodną wrt (uwaga jest stała) ° CΣ1C

l(μ,Σ|x(i))=Cm2log|Σ|12i=1m(x(i)μ)TΣ1(x(i)μ)=C+m2log|Σ1|12i=1mtr[(x(i)μ)(x(i)μ)TΣ1]Σ1l(μ,Σ|x(i))=m2Σ12i=1m(x(i)μ)(x(i)μ)T  Since ΣT=Σ

Zrównanie zera i rozwiązanie dlaΣ

0=mΣi=1m(x(i)μ)(x(i)μ)TΣ^=1mi=1m(x(i)μ^)(x(i)μ^)T.

Źródła

Xavier Bourret Sicotte
źródło
Mile widziane są alternatywne dowody, bardziej zwarte formularze lub intuicyjna interpretacja!
Xavier Bourret Sicotte
W wyprowadzeniu dla , dlaczego musi być pozytywnie określona? Czy to wystarczy, że jest odwracalna? Dla odwracalnej macierzy , tylko wtedy, gdy ? Σ Σ A A x = 0 x = 0μΣΣZAZAx=0x=0
Tom Bennett
Aby wyjaśnić, jest macierzą , która może mieć skończone ukośne i nieprzekątne elementy wskazujące na korelację między wektorami, prawda? Jeśli tak, to w jakim sensie te wektory są niezależne? Dlaczego też łączna funkcja prawdopodobieństwa jest równa prawdopodobieństwu? Czy gęstość łączona, powinna być równa prawdopodobieństwu pomnożonemu przez uprzednią, tj. ? m × m f ( x , y ) f ( x | y ) f ( y )Σm×mfa(x,y)fa(x|y)fa(y)
Mathews24,
1
@TomBennett macierz sigma jest z definicji z definicji dodatnia - dowód znajduje się w stats.stackexchange.com/questions/52976/ ... Tożsamość rachunku macierzowego wymaga, aby macierz była symetryczna, a nie dodatnia. Ale ponieważ pozytywne określone macierze są zawsze symetryczne, to działa
Xavier Bourret Sicotte
1
Tak, rzeczywiście - niezależność między obserwacjami pozwala uzyskać prawdopodobieństwo - sformułowanie może być niejasne faie - jest to wielowymiarowa wersja prawdopodobieństwa. Przeor nadal nie ma znaczenia, niezależnie od tego
Xavier Bourret Sicotte
5

Alternatywny dowód dla który bierze pochodną bezpośrednio względem :Σ^Σ

Podnoszenie z log-prawdopodobieństwo jak wyżej: gdzie i użyliśmy cyklicznych i liniowych właściwości . Aby obliczyć , najpierw to obserwujemy

(μ,Σ)=do-m2)log|Σ|-12)ja=1mtr[(x(ja)-μ)T.Σ-1(x(ja)-μ)]=do-12)(mlog|Σ|+ja=1mtr[(x(ja)-μ)(x(ja)-μ)T.Σ-1])=do-12)(mlog|Σ|+tr[S.μΣ-1])
S.μ=ja=1m(x(ja)-μ)(x(ja)-μ)T.tr/Σ
Σlog|Σ|=Σ-T.=Σ-1
przy czwartej właściwości powyżej. Aby wziąć pochodną drugiego terminu, potrzebujemy właściwości, że (z Matrix Cookbook , równanie 63). Stosując to z , otrzymujemy ponieważ zarówno i są symetryczne. Następnie
Xtr(ZAX-1b)=-(X-1bZAX-1)T..
b=ja
Σtr[S.μΣ-1]=-(Σ-1S.μΣ-1)T.=-Σ-1S.μΣ-1
ΣS.μ
Σ(μ,Σ)mΣ-1-Σ-1S.μΣ-1.
Ustawienie tego na 0 i przestawienie daje
Σ^=1mS.μ.

To podejście wymaga więcej pracy niż standardowe stosowanie pochodnych w odniesieniu do i wymaga bardziej skomplikowanej identyfikacji śladu. Uznałem to za przydatne, ponieważ obecnie potrzebuję wziąć pochodne zmodyfikowanej funkcji prawdopodobieństwa, dla której wydaje się, że znacznie trudniej jest użyć niż .Λ=Σ-1/Σ-1/Σ

Eric Kightley
źródło