Wyprowadzanie rozkładów warunkowych wielowymiarowego rozkładu normalnego

114

Mamy wielowymiarowy normalny wektor YN(μ,Σ) . Rozważ podzielenie μ i Y na

μ=[μ1μ2]
Y=[y1y2]

z podobną partycją Σ w

[Σ11Σ12Σ21Σ22]
Następnie (y1|y2=a) , rozkład warunkowy pierwszej partycji, biorąc pod uwagę drugą, to N(μ¯,Σ¯) , ze średnią
μ¯=μ1+Σ12Σ221(aμ2)
i macierz kowariancji
Σ¯=Σ11Σ12Σ221Σ21

Właściwie te wyniki są również dostępne w Wikipedii, ale nie mam pojęcia, jak powstają μ¯ i Σ¯ . Te wyniki są kluczowe, ponieważ są ważną formułą statystyczną do wyprowadzania filtrów Kalmana . Czy ktoś dostarczy mi etapy wyprowadzania μ¯ i Σ¯ ? Dziękuję Ci bardzo!

Latająca świnia
źródło
24
Chodzi o to, aby użyć definicji gęstości warunkowej . Wiesz, że jest normą dwuwymiarową i że marginalna jest normalna, musisz po prostu wymienić wartości i wykonać nieprzyjemną algebrę. Te notatki mogą być pomocne. Oto pełny dowód. f(y1|y2=a)=fY1,Y2(y1,a)fY2(a)fY1,Y2fY2
1
Twój drugi link odpowiada na pytanie (+1). Dlaczego nie podać go jako odpowiedzi @ Procrastinator?
gui11aume
1
Nie zdawałem sobie z tego sprawy, ale myślę, że domyślnie użyłem tego równania w warunkowym PCA. Warunkowe PCA wymaga transformacji która skutecznie oblicza macierz kowariancji warunkowej, biorąc pod uwagę pewien wybór A.(IA(AA)1A)Σ
John
@ Procrastinator - twoje podejście wymaga znajomości tożsamości macierzy Woodbury'ego i znajomości blokowej inwersji macierzy. Powoduje to niepotrzebnie skomplikowaną algebrę macierzy.
probabilityislogic
2
@probabilityislogic Właściwie wynik został udowodniony w podanym przeze mnie linku. Ale jest to godne szacunku, jeśli uznasz to za bardziej skomplikowane niż inne metody. Ponadto w moim komentarzu nie próbowałem zapewnić optymalnego rozwiązania . Mój komentarz był także poprzedni od odpowiedzi Makra (którą głosowałem, jak widać).

Odpowiedzi:

111

Możesz to udowodnić, obliczając gęstość warunkową za pomocą brutalnej siły, jak w linku Procrastinator (+1) w komentarzach. Ale istnieje również twierdzenie, które mówi, że wszystkie rozkłady warunkowe wielowymiarowego rozkładu normalnego są normalne. Dlatego pozostaje tylko obliczyć średni wektor i macierz kowariancji. Pamiętam, że wyprowadziliśmy to w klasie szeregów czasowych w college'u, sprytnie definiując trzecią zmienną i używając jej właściwości do uzyskania wyniku prostszego niż rozwiązanie brutalnej siły w łączu (pod warunkiem, że czujesz się komfortowo z algebrą macierzy). Wychodzę z pamięci, ale było to mniej więcej tak:


Niech będzie pierwszą partycją, a drugą. Teraz zdefiniuj gdzie . Teraz możemy pisaćx1x2z=x1+Ax2A=Σ12Σ221

cov(z,x2)=cov(x1,x2)+cov(Ax2,x2)=Σ12+Avar(x2)=Σ12Σ12Σ221Σ22=0

Dlatego i są nieskorelowane, a ponieważ są wspólnie normalne, są niezależne . Teraz wyraźnie , dlatego wynika z tego, żezx2E(z)=μ1+Aμ2

E(x1|x2)=E(zAx2|x2)=E(z|x2)E(Ax2|x2)=E(z)Ax2=μ1+A(μ2x2)=μ1+Σ12Σ221(x2μ2)

co dowodzi pierwszej części. W przypadku macierzy kowariancji należy to zauważyć

var(x1|x2)=var(zAx2|x2)=var(z|x2)+var(Ax2|x2)Acov(z,x2)cov(z,x2)A=var(z|x2)=var(z)

Teraz prawie skończyliśmy:

var(x1|x2)=var(z)=var(x1+Ax2)=var(x1)+Avar(x2)A+Acov(x1,x2)+cov(x2,x1)A=Σ11+Σ12Σ221Σ22Σ221Σ212Σ12Σ221Σ21=Σ11+Σ12Σ221Σ212Σ12Σ221Σ21=Σ11Σ12Σ221Σ21

co dowodzi drugiej części.

Uwaga: Dla osób niezbyt dobrze zaznajomionych z używaną tutaj algebrą macierzy jest to doskonały zasób .

Edycja: użyta tutaj jedna właściwość, której nie ma w macierzowej książce kucharskiej (dobry chwyt @FlyingPig) to właściwość 6 na stronie wikipedii o macierzach kowariancji: to znaczy, że dla dwóch losowych wektorów , Oczywiście w przypadku skalarów ale dla wektorów są one różne, o ile matryce są ułożone inaczej.x,y

var(x+y)=var(x)+var(y)+cov(x,y)+cov(y,x)
cov(X,Y)=cov(Y,X)
Makro
źródło
Dzięki za tę wspaniałą metodę! Jest jedna algebra macierzowa, która nie wydaje mi się znana, gdzie mogę znaleźć wzór na otwarcie ? Nie znalazłem tego na wysłanym linku. var(x1+Ax2)
Latająca świnia,
@Flyingpig, nie ma za co. Wierzę, że jest to wynik równań , w połączeniu z dodatkową właściwością wariancji sumy losowych wektorów nie zapisanych w Matrix Cookbook - dodałem ten fakt do mojej odpowiedzi - dzięki za złapanie że! (291),(292)
Makro
13
Jest to bardzo dobra odpowiedź (+1), ale można ją poprawić pod względem uporządkowania podejścia. Zaczynamy od stwierdzenia, że ​​chcemy kombinacji liniowej całego wektora, który jest niezależny / nieskorelowany z . Jest tak, ponieważ możemy wykorzystać fakt, że co oznacza i . To z kolei prowadzi do wyrażeń dla i . Oznacza to powinniśmy . Teraz wymagamy . Jeśli jest odwracalny, to mamyz=Cx=C1x1+C2x2x2p(z|x2)=p(z)var(z|x2)=var(z)E(z|x2)=E(z)var(C1x1|x2)E(C1x1|x2)C1=Icov(z,x2)=Σ12+C2Σ22=0Σ22C2=Σ12Σ221 .
prawdopodobieństwo prawdopodobieństwa
1
@ jakeoung - nie udowadnia, że , ustawia ją na tę wartość, aby uzyskać wyrażenie zawierające zmienne, o których chcemy wiedzieć. C1=I
probabilislogiczny
1
@ jakeoung Nie rozumiem też tego stwierdzenia. Rozumiem w ten sposób: Jeśli , to . Zatem wartość jest w jakiś sposób dowolną skalą. Dlatego dla uproszczenia ustawiliśmycov(z,x2)=0cov(C11z,x2)=C11cov(z,x2)=0C1C1=I
Ken T
6

Odpowiedź Makra jest świetna, ale tutaj jest jeszcze prostszy sposób, który nie wymaga użycia żadnego zewnętrznego twierdzenia potwierdzającego rozkład warunkowy. Polega ona na zapisaniu odległości Mahanalobisa w formie, która oddziela zmienną argumentu dla instrukcji warunkowania, a następnie odpowiednio rozkłada gęstość normalną.


Przepisywanie odległości Mahanalobisa dla wektora warunkowego: ta pochodna wykorzystuje formułę inwersji macierzy, która wykorzystuje dopełnienie Schura . Najpierw używamy formuły inwersji blokowej, aby zapisać macierz odwrotności wariancji jako:ΣS=Σ11Σ12Σ221Σ21

Σ1=[Σ11Σ12Σ21Σ22]1=[Σ11Σ12Σ21Σ22],

gdzie:

Σ11=ΣS1 Σ12=ΣS1Σ12Σ221,Σ21=Σ221Σ12ΣS1Σ22=Σ221Σ12ΣS1Σ12Σ221. 

Za pomocą tej formuły możemy teraz zapisać odległość Mahanalobisa jako:

(yμ)TΣ1(yμ)=[y1μ1y2μ2]T[Σ11Σ12Σ21Σ22][y1μ1y2μ2]=(y1μ1)TΣ11(y1μ1)+(y1μ1)TΣ12(y2μ2)+(y2μ2)TΣ21(y1μ1)+(y2μ2)TΣ22(y2μ2)=(y1(μ1+Σ12Σ221(y2μ2)))TΣS1(y1(μ1+Σ12Σ221(y2μ2)))=(y1μ)TΣ1(y1μ),

gdzie:

μμ1+Σ12Σ221(y2μ2),ΣΣ11Σ12Σ221Σ21.

Zauważ, że ten wynik jest wynikiem ogólnym, który nie zakłada normalności losowych wektorów. Daje to użyteczny sposób ponownego sformułowania odległości Mahanalobisa, tak aby była kwadratową postacią w odniesieniu do tylko jednego wektora w rozkładzie (drugi wchłonięty do średniej macierzy wektora i wariancji).


Wyprowadzenie rozkładu warunkowego: Teraz, gdy mamy powyższą formę odległości Mahanalobisa, reszta jest łatwa. Mamy:

p(y1|y2,μ,Σ)y1p(y1,y2|μ,Σ)=N(y|μ,Σ)y1exp(12(yμ)TΣ1(yμ))=exp(12(y1μ)TΣ1(y1μ))y1N(y1|μ,Σ).

To ustanawia, że ​​rozkład warunkowy jest również normalny wielowymiarowy z określonym wektorem średnich warunkowych i macierzą wariancji warunkowych.

Ben
źródło