Dlaczego macierz korelacji musi być dodatnia półokreślona i co to znaczy być dodatnim półokreślonym?

34

Badałem znaczenie dodatnich półokreślonych właściwości macierzy korelacji lub kowariancji.

Szukam jakichkolwiek informacji na temat

  • Definicja dodatniej półokreśloności;
  • Jego ważne właściwości, praktyczne implikacje;
  • Konsekwencja negatywnego wyznacznika, wpływ na analizę wielowymiarową lub wyniki symulacji itp.
Melon
źródło
5
Czy chcesz zrozumieć, czym jest półokreślalność, czy chcesz wiedzieć, dlaczego macierze korelacji muszą być półokreślone , czy chcesz wiedzieć, jakie ważne wyniki implikuje ta właściwość?
whuber
4
Jeśli macierze korelacji nie są definitywnie pół-dodatnie, można uzyskać wariancje, które są ujemne.
Trochę edytowałem twoje pytanie, sprawdź je. Należy również pamiętać, że macierz z parzystą liczbą ujemnych wartości własnych nadal będzie miała dodatnią determinantę.
ttnphns
Macierz kowariancji NIE zawsze jest równa macierzy korelacji! Kowariancja uwzględnia zmienne znormalizowane, podczas gdy matryca korelacji nie.
Manoj Kumar,
1
Powiązane pytania: Czy każda macierz kowariancji jest dodatnia? uważa szerszy przypadek macierzy kowariancji, których szczególnym przypadkiem są macierze korelacji; również Czy każda macierz korelacji jest dodatnia na półokreślona? i Czy każda macierz korelacji jest dodatnia?
Silverfish

Odpowiedzi:

38

Wariancja sumy ważonej zmiennych losowych musi być nieujemna dla wszystkich wyborów liczb rzeczywistych . Ponieważ wariancja może być wyrażona jako mamy, że macierz kowariancji musi być dodatnim półfinałem (który jest czasem nazywany nieujemnym określonym). Przypomnij sobie, że macierz nazywana jest dodatnim półfinałem tylko wtedy, gdya i var ( i a i X i ) = i j a i a j cov ( X i , X j ) = i j a i a j Σ i , j , Σ = [ Σ i , j ] C i jiaiXiai

var(iaiXi)=ijaiajcov(Xi,Xj)=ijaiajΣi,j,
Σ=[Σi,j]C
ijaiajCi,j0ai,ajR.
Dilip Sarwate
źródło
Dzięki, usunąłem moją opinię, ale nie głosowałem, ponieważ nie odpowiada na praktyczne implikacje. Powiedzmy, że mam matrycę, która nie jest jednoznacznie pozytywna (ze względu na przykład modyfikacji przez „eksperta”). Co by się stało, jeśli użyję go do kalibracji i / lub symulacji danych? W szczególności, czy jest to prawdziwy problem przy badaniu dużej sumy i istnieje tylko kilka ujemnych wartości własnych? Jaki byłby skuteczny algorytm do przekształcania nie dodatniej półokreślonej macierzy korelacji w dodatnią półokreśloną macierz? Jaki byłby wpływ tego algorytmu?
lcrmorin
@Were_cat Dzięki za odwrócenie głosowania.
Dilip Sarwate
Czy mógłbyś wyjaśnić pierwszą równość w pierwszym równaniu?
Vivek Subramanian
1
var(X)=cov(X,X)
cov(iaiXi,Y)=iaicov(Xi,Y)cov(X,ibjYj,)=jbjcov(X,Yj)
18

Odpowiedź jest dość prosta.

Macierz korelacji jest zdefiniowana w następujący sposób:

Niech będzie macierzą danych: obserwacjami, zmiennymi.m × n m nX=[x1,x2,...,xn]m×nmn

Zdefiniuj jako macierz znormalizowanych danych, gdzie jest średnią dla zmiennej 1, średnią dla zmiennej 2 itd., a standardowe odchylenie zmiennej 1 itd., a jest wektorem wszystkich 1s.Xb=[(x1μ1e)s1,(x2μ2e)s2,(x3μ3e)s3,...]μ1μ2s1e

Macierz korelacji jest wtedy

C=XbXb

Macierz jest dodatnia półokreślona, ​​jeśli nie ma wektora takiego, że .AzzAz<0

Załóżmy, że nie jest jednoznacznie określony. Następnie istnieje wektor w taki, że .CwCw<0

(wCw)=(wXbXbw)=(Xbw)(Xbw)=z12+z22...z=XbwwCw

UVV

Gregor
źródło
2
To zdecydowanie najostrzejsza, najbardziej zwięzła i użyteczna odpowiedź. Dzięki !
Yohan Obadia
12

(Ewentualna luźność w rozumowaniu byłaby moja. Nie jestem matematykiem: to przedstawienie, nie dowód i pochodzi z moich eksperymentów numerycznych, nie z książek.)

  1. Dodatni półokreśloną (PSD) matrycy, zwany również Macierz Grama jest matryca bez wartości własnych ujemnych. Macierz z ujemnymi wartościami własnymi nie jest dodatnim półfinałem lub nie jest gramatyczna. Oba mogą być określone (bez zerowych wartości własnych) lub pojedyncze (z co najmniej jedną zerową wartością własną). [Słowo „Gramian” jest używane w matematyce w kilku różnych znaczeniach, więc być może należy go unikać.]
  2. W statystykach zwykle stosujemy te warunki do macierzy typu SSCP, zwanej także macierzą skalarną. Macierze korelacji lub kowariancji są szczególnymi przypadkami takiej macierzy .
  3. Każda skalarna macierz produktu jest charakterystyką podsumowującą niektórych danych wielowymiarowych (chmura). Na przykład, biorąc pod uwagę przypadków danych zmiennych , moglibyśmy obliczyć macierz kowariancji X między zmiennymi lub Xnpppnnmacierz kowariancji między przypadkami. Kiedy obliczasz to na podstawie rzeczywistych danych, matrycą zawsze będzie Gramian. Możesz otrzymać macierz inną niż Gramian (non-psd), jeśli (1) jest to macierz podobieństwa mierzona bezpośrednio (tj. Nie obliczona z danych) lub miara podobieństwa nie jest typem SSCP; (2) wartości macierzy zostały niepoprawnie wprowadzone; (3) macierz jest w rzeczywistości Gramianem, ale jest (lub tak blisko) osobliwa, że ​​czasami spektralna metoda obliczania wartości własnych wytwarza małe ujemne zamiast prawdziwych zerowych lub małe dodatnie.
  4. Alternatywnym i równoważnym podsumowaniem chmury jest macierz odległości euklidesowych. Iloczyn skalarny (taki jak kowariancja) między parą przedmiotów i odpowiadającą im kwadratową odległością euklidesową między nimi wiąże prawo cosinusów ( twierdzenie , spójrz na obrazek): , gdzie jest iloczynem skalarnym, a to odległości dwóch elementów od początku. W przypadku macierzy kowariancji między zmiennymi i wzór ten wygląda jak . s h X Y d 2 x y = σ 2 x + σ 2 y - 2 c o v x yd122=h12+h222s12shXYdxy2=σx2+σy22covxy
  5. Jako wniosek pośredni: macierz kowariancji (lub korelacji lub innego iloczynu skalarnego) między niektórymi elementami jest konfiguracją punktów osadzonych w przestrzeni euklidesowej, więc odległości euklidesowe są zdefiniowane między wszystkimi tymi punktami.mmm
  6. mmm
  7. Jakie są możliwe przyczyny lub wersje konfiguracji innej niż Gramian (nie euklidesowa)? Odpowiedzi wynikają z kontemplacji [punkt 4].
    • mmd
    • hddhh
    • dhh1+h2d12|h1h2|
  8. |covij|>σiσj

Ryc.1.

Ryc. 1

Ryc2

Ryc. 2

Ryc. 3.

Ryc. 3

ttnphns
źródło
2
Punkt 6 wymaga wykazania: wykazałeś, że macierz kwadratowych odległości euklidesowych jest pd, ale bez dowodu twierdzisz, że każdej macierzy pd odpowiada konfiguracja punktów euklidesowych. Nie podłączyłeś także swojej definicji pd („brak ujemnych wartości własnych”) do żadnej z twoich kolejnych charakterystyk. Kluczowa idea pojawia się na końcu (punkt 8): do zdefiniowania odległości można użyć macierzy pd. Logicznie, tutaj należy rozpocząć analizę.
whuber
@whuber: Dziękuję za krytyczną ocenę. Obawiam się, że jeśli chodzi o matematyczne udowodnienie czegoś, tonę. Zgłosiłem część mojego praktycznego doświadczenia (powiedziałem to); odpowiedź nie była sekwencją analityczną. Czy nie chciałbyś wtedy dodać własnej odpowiedzi, która może poprawić / ulepszyć moją? Może okazać się cenną pomocą. Albo możesz pracować nad moim tekstem, aby go ulepszyć, jeśli uznasz, że nie jest on daremny.
ttnphns
PS Mój punkt 8 sugeruje, że ponieważ podwójne centrowanie zakotwicza konfigurację punktów do jego środka ciężkości, sama ta operacja nie wprowadza braku euklidii (powoduje tylko osobliwość, ponieważ nowy punkt, środek, należy do tej samej przestrzeni). Stąd możemy sprawdzić, czy początkowa konfiguracja była euklidesowa. Czy to nie jest poprawne?
ttnphns