Czy istnieje intuicyjna interpretacja

107

Dla danej macierzy danych (ze zmiennymi w kolumnach i punktami danych w wierszach) wydaje się, że A T A odgrywa ważną rolę w statystyce. Na przykład jest to ważna część analitycznego rozwiązania zwykłych najmniejszych kwadratów. Lub, w przypadku PCA, jego wektory własne są głównymi składnikami danych.AATA

Rozumiem, jak obliczyć , ale zastanawiałem się, czy istnieje intuicyjna interpretacja tego, co reprezentuje ta macierz, co prowadzi do jej ważnej roli?ATA

Alec
źródło
2
Pewną intuicję można uzyskać dzięki analizie na stats.stackexchange.com/a/66295/919 .
whuber

Odpowiedzi:

125

Geometrycznie macierz nazywa się macierzą produktów skalarnych (= iloczyn skalarny, = iloczyn wewnętrzny). Algebraicznie nazywana jest macierzą sumy kwadratów i produktów krzyżowych ( SSCP ).AA

Jego -ty element przekątny jest równy a 2 ( i ) , gdzie a ( i ) oznacza wartości w i- tej kolumnie A, a jest sumą między wierszami. I j -tego elementu niediagonalnego nich jest Σ ( I ) ( J ) .ia(i)2a(i)iAija(i)a(j)

Istnieje wiele ważnych współczynników asocjacji, a ich macierze kwadratowe nazywane są podobieństwami kątowymi lub podobieństwami typu SSCP:

  • Dzieląc macierz SSCP przez , wielkość próbki lub liczbę wierszy A , otrzymujemy macierz MSCP (średni kwadrat i iloczyn krzyżowy). Stąd parowa formuła tej miary asocjacji wynosi x ynA (wektoramixiyjest para kolumn zA).xynxyA

  • Jeśli wyśrodkujesz kolumny (zmienne) , to A ' A jest macierzą rozproszenia (lub współrozproszeniem, jeśli ma być rygorystycznym), a A ' A / ( n - 1 ) jest macierzą kowariancji . Parowa formuła kowariancji to c x c yAAAAA/(n1) zcxicyoznaczającymi wyśrodkowane kolumny.cxcyn1cxcy

  • Jeśli z- standaryzujesz kolumny (odejmujesz średnią kolumny i dzielisz przez odchylenie standardowe), to A ' A / ( n - 1 ) jest macierzą korelacji Pearsona : korelacja jest kowariancją dla zmiennych standaryzowanych. Formuła korelacji parami jest z x z yAAA/(n1) zzxizyoznacza standardowe kolumny. Korelacja nazywana jest również współczynnikiem liniowości.zxzyn1zxzy

  • Jeśli dodasz kolumny A w skali jednostkowej (doprowadzisz ich SS, sumę kwadratów, do 1), to A A jest macierzą podobieństwa cosinus . Równoważnik parami wzór wydaje się zatem być Σ u x u Y = Σ x yAAA zUxiuYoznaczający L2 znormalizowane kolumny. Podobieństwo cosinus jest również nazywane współczynnikiem proporcjonalności.uxuy=xyx2y2uxuy

  • Jeśli wyśrodkujesz, a następnie w skali jednostkowej kolumny , to A A jest ponownie macierzą korelacji Pearsona , ponieważ korelacja jest cosinus dla zmiennych centrowanych 1 , 2 : c u x c u y = c x c yAAA1,2cuxcuy=cxcycx2cy2

Oprócz tych czterech głównych środków asocjacyjnych wspomnijmy także o kilku innych, również opartych na , na dodatek. Można je postrzegać jako miary alternatywne do podobieństwa cosinusowego, ponieważ przyjmują inną niż normalizacja normę, mianownik we wzorze:AA

  • Współczynnik tożsamości [Zegers & ten Berge, 1985] ma mianownik w postaci średniej arytmetycznej zamiast średniej geometrycznej: . Może to być 1 wtedy i tylko wtedy, gdy porównywane kolumnyAsą identyczne.xy(x2+y2)/2A

  • Kolejny współczynnik użyteczny, taki jak ten, nazywa się współczynnikiem podobieństwa : .xyx2+y2xy=xyxy+(xy)2

  • Wreszcie, jeśli wartości w są nieujemne, a ich suma w kolumnach wynosi 1 (np. Są proporcjami), to A jest matrycąwiernościlubwspółczynnikiemBhattacharyya.AA


1AAsAnC=AAss/nC/(n1)CdR=C/dd

2n (z wyjątkiem obliczania średniej, do środka).

ttnphns
źródło
42

ATAAA

AATA=I

NRH
źródło
39

@NRH dał dobrą odpowiedź techniczną.

ATAA2

Peter Flom
źródło
5
Chociaż inne odpowiedzi są bardziej „technicznie” poprawne, jest to najbardziej intuicyjna odpowiedź.
CatsLoveJazz
3

AAm×nA:RnRmA

(AA):RnRn{e1,...,en}d1,,dk

(AA)(x1e1++xnen)=d1x1e1+...+dkxkek

(b) Zakres (A) = Col (A), z definicji Col (A). A więc A | Row (A) mapuje Row (A) na Col (A).

Av=0v is in Kernel(A)vis in orthogonal complement of Row(A)

A(Rn)=A(Row(A))A|Row(A):Row(A)Col(A)

Reason: If v = r+k (r \in Row(A), k \in Kernel(A),from (c)) then
A(v) = A(r) + 0 = A(r) where A(r) = 0 <==> r = 0$.

[Nawiasem mówiąc, daje dowód, że Ranga rzędu = Ranga kolumny!]

A|:Col(A)=Row(A)Col(A')=Row(A)

AA(Rn)=Row(A)

Marshall M. Cohen
źródło
2
LATEX
2

ATA

ATArowpATcolpAdot(rowp,colp)(p,p)ATA

pATkAdot(rowp,colk)(p,k)

(p,k)ATArowpcolkrowicoljrowicolj, i wzajemnie.

Aiji

wprowadź opis zdjęcia tutaj

camillejr
źródło
1

xE[x2]AATA

xxi

a=[x1x2xn]

x

x2¯=aan
ATA

σ2=E[x2]ATAATA

Aksakal
źródło