Dlaczego inwersja macierzy kowariancji daje częściowe korelacje między zmiennymi losowymi?

32

Słyszałem, że częściowe korelacje między zmiennymi losowymi można znaleźć, odwracając macierz kowariancji i pobierając odpowiednie komórki z takiej wynikowej macierzy precyzji (fakt ten jest wspomniany w http://en.wikipedia.org/wiki/Partial_correlation , ale bez dowodu) .

Dlaczego tak jest?

michal
źródło
1
Jeśli chcesz uzyskać częściową korelację w komórce kontrolowanej dla wszystkich innych zmiennych, ostatni akapit tutaj może rzucić światło.
ttnphns

Odpowiedzi:

34

Gdy wieloczynnikowa zmienna losowa (X1,X2,,Xn) ma niejednakowaną macierz kowariancji C=(γij)=(Cov(Xi,Xj)) , zbiór wszystkich rzeczywistych kombinacji liniowych Xi tworzy n wymiarową przestrzeń wektora rzeczywistego o podstawie E=(X1,X2,,Xn) i nie zdegenerowany produkt wewnętrzny podany przez

Xi,Xj=γij .

Jego podwójna podstawa w odniesieniu do tego produktu wewnętrznego , E=(X1,X2,,Xn) , jest jednoznacznie określona przez relacje

Xi,Xj=δij ,

delta Kroneckera (równa gdy i = j oraz 01i=j0 inaczej).

Podwójna podstawa jest przedmiotem zainteresowania tutaj, ponieważ częściowe korelacja i X j otrzymuje się korelacji pomiędzy częścią X í która pozostała po projekcji go w przestrzeń rozpięta przez wszystkich innych wektorów (niech po prostu nazwać jej " resztkowa”, X i ) oraz porównywalne część X J , resztkowej X j . Jednak X i jest wektorem, który jest prostopadły do ​​wszystkich wektorów oprócz X i i ma dodatni iloczyn wewnętrzny z X i skąd X iXiXjXiXiXjXjXiXiXiXimusi być pewną nieujemną wielokrotnością , i podobnie dla X j . Napiszmy zatemXiXj

Xja=λjaXja, Xjot=λjotXjot

dla dodatnich liczb rzeczywistych i λ jλjaλjot .

Korelacja częściowa jest znormalizowanym iloczynem kropkowym reszt, który nie ulega zmianie przez przeskalowanie:

ρjajot=Xja,XjotXja,XjaXjot,Xjot=λjaλjotXja,Xjotλja2)Xja,Xjaλjot2)Xjot,Xjot=Xja,XjotXja,XjaXjot,Xjot .

(W obu przypadkach częściowa korelacja wyniesie zero, ilekroć reszty są ortogonalne, niezależnie od tego, czy są niezerowe).

Musimy znaleźć wewnętrzne produkty podwójnych elementów. W tym celu rozwiń elementy podwójnej podstawy pod względem oryginalnej podstawy :mi

Xja=jot=1nβjajotXjot .

Następnie z definicji

δjak=Xja,Xk=jot=1nβjajotXjot,Xk=jot=1nβjajotγjotk .

W notacji macierzowej z macierzą tożsamości i B = ( β i j ) macierzą zmiany podstawy, to stwierdzaja=(δjajot)b=(βjajot)

ja=bdo .

Oznacza to, że , co dokładnie twierdzi artykuł w Wikipedii. Poprzednia formuła częściowej korelacji podajeb=do-1

ρjajot=βjajotβjajaβjotjot=dojajot-1dojaja-1dojotjot-1 .
Whuber
źródło
3
+1, świetna odpowiedź. Ale dlaczego nazywacie tę podwójną podstawę „podwójną podstawą w odniesieniu do tego wewnętrznego produktu” - co dokładnie oznacza „w odniesieniu do tego wewnętrznego produktu”? Wydaje się, że stosowanie terminu „podwójnej podstawy”, jak określono tutaj mathworld.wolfram.com/DualVectorSpace.html w akapicie drugim ( "Given przestrzeni wektorowej Podstawa do V istnieje podwójną podstawę ... ”) lub tutaj en.wikipedia.org/wiki/Dual_basis i jest niezależny od jakiegokolwiek produktu skalarnego. v1,...,vnV
ameba mówi Przywróć Monikę
3
@amoeba Istnieją dwa rodzaje duetów. (Naturalny) podwójny dowolnej przestrzeni wektorowej nad polem R jest zbiorem funkcji liniowych ϕ : V R , zwanych V . Nie ma kanonicznego sposobu na identyfikację V z V , nawet jeśli mają ten sam wymiar, gdy V jest skończony. Każdy iloczyn wewnętrzny γ odpowiada takiej mapie g : V V i odwrotnie , przez g ( v ) ( w )V.Rϕ:V.RV.V.V.V.γsol:V.V.(Niedegeneracja γ zapewnia, że g jest izomorfizmem przestrzeni wektorowej.) To pozwala spojrzeć na elementy V tak, jakby były elementami podwójnego V ∗ - ale to zależy od γ .
sol(v)(w)=γ(v,w).
γsolV.V.γ
whuber
3
@mpettis Te kropki były trudne do zauważenia. Zastąpiłem je małymi otwartymi kółkami, aby ułatwić odczytanie notacji. Dzięki za zwrócenie na to uwagi.
whuber
4
@Andy Ron Christensen's Plane Odpowiedzi na złożone pytania mogą być tym, czego szukasz. Niestety jego podejście sprawia, że ​​(IMHO) nadmiernie polega na argumentach i obliczeniach dotyczących współrzędnych. We wstępie (patrz str. Xiii) Christensen wyjaśnia, że ​​to z powodów pedagogicznych.
whuber
3
@whuber, Twój dowód jest niesamowity. Zastanawiam się, czy jakakolwiek książka lub artykuł zawiera taki dowód, żebym mógł zacytować.
Harry
12

Oto dowód z samych obliczeń macierzowych.

Doceniam odpowiedź Whuber. Jest bardzo wnikliwy w matematyce za sceną. Jednak nadal nie jest tak trywialne, jak użyć jego odpowiedzi, aby uzyskać znak minus w formule podanej w wikipedii Partial_corelation # Using_matrix_inversion .

ρXjaXjotV.{Xja,Xjot}=-pjajotpjajapjotjot

Aby uzyskać ten znak minus, oto inny dowód, który znalazłem w „Modelach graficznych Lauriten 1995 Page 130”. Dokonuje się tego po prostu przez niektóre obliczenia macierzowe.

Kluczem jest następująca tożsamość macierzy: gdzie E = A - B D - 1 C , F = D - 1 C i G = B D -

(ZAbdore)-1=(mi-1-mi-1sol-fami-1re-1+fami-1sol)
mi=ZA-bre-1dofa=re-1do .sol=bre-1

Zapisz macierz kowariancji jako gdzie Ω 11 jest macierzą kowariancji ( X i , X j ), a Ω 22 jest macierzą kowariancji V{ X i , X j } .

Ω=(Ω11Ω12Ω21Ω22)
Ω11(Xja,Xjot)Ω22V{Xi,Xj}

Niech . Podobnie zapisz P jako P = ( P 11 P 12 P 21 P 22 )P=Ω1P

P=(P11P12P21P22)

Według tożsamości macierzy klucza

P111=Ω11Ω12Ω221Ω21

Wiemy również, że jest macierzą kowariancji ( X i , X j ) | V{ X i , X j } (z Multivariate_normal_distribution # Conditional_distribution ). Korelacja częściowa wynosi zatem ρ X i X jV{ X i , X j } = PΩ11Ω12Ω221Ω21(Xi,Xj)|V{Xi,Xj} Używać zapisu, że(k,l)p wprowadzanie matrycyMjest oznaczony[M]kl.

ρXiXjV{Xi,Xj}=[P111]12[P111]11[P111]22.
(k,l)M[M]kl

Prosta formuła inwersji macierzy 2 na 2,

([P111]11[P111]12[P111]21[P111]22)=P111=1detP11([P11]22[P11]12[P11]21[P11]11)

Dlatego co właśnie twierdzi artykuł w Wikipedii.

ρXiXjV{Xi,Xj}=[P111]12[P111]11[P111]22=1detP11[P11]121detP11[P11]221detP11[P11]11=[P11]12[P11]22[P11]11
Po C.
źródło
Jeśli pozwolimy i=j, to rho_ii V\{X_i, X_i} = -1w jaki sposób interpretujemy te diagonalne elementy w macierzy dokładności?
Jason
Słuszna uwaga. Ta formuła powinna być poprawna tylko dla i = / = j. Z dowodu znak minus pochodzi z inwersji macierzy 2 na 2. Nie byłoby tak, gdyby i = j.
Po C.
Tak więc liczb ukośnych nie można powiązać z częściową korelacją. Co oni reprezentują? To nie są tylko odwrotności wariancji, prawda?
Jason
Ta formuła obowiązuje dla i = / = j. Jest to bez znaczenia dla i = j.
Po C.
4

XiXjotn-1XjaXjotn-2)ϵjaϵjotρϵjaϵjρ

To wyjaśnia zamieszanie w powyższych komentarzach, a także w Wikipedii. Druga definicja jest powszechnie stosowana z tego, co mogę powiedzieć, więc powinien istnieć znak ujemny.

Pierwotnie opublikowałem edycję drugiej odpowiedzi, ale popełniłem błąd - przepraszam za to!

Johnny Ho
źródło