Dla danej macierzy danych (ze zmiennymi w kolumnach i punktami danych w wierszach) wydaje się, że A T A odgrywa ważną rolę w statystyce. Na przykład jest to ważna część analitycznego rozwiązania zwykłych najmniejszych kwadratów. Lub, w przypadku PCA, jego wektory własne są głównymi składnikami danych.
Rozumiem, jak obliczyć , ale zastanawiałem się, czy istnieje intuicyjna interpretacja tego, co reprezentuje ta macierz, co prowadzi do jej ważnej roli?
Odpowiedzi:
Geometrycznie macierz nazywa się macierzą produktów skalarnych (= iloczyn skalarny, = iloczyn wewnętrzny). Algebraicznie nazywana jest macierzą sumy kwadratów i produktów krzyżowych ( SSCP ).A′A
Jego -ty element przekątny jest równy ∑ a 2 ( i ) , gdzie a ( i ) oznacza wartości w i- tej kolumnie A, a ∑ jest sumą między wierszami. I j -tego elementu niediagonalnego nich jest Σ ( I ) ( J ) .i ∑a2(i) a(i) i A ∑ ij ∑a(i)a(j)
Istnieje wiele ważnych współczynników asocjacji, a ich macierze kwadratowe nazywane są podobieństwami kątowymi lub podobieństwami typu SSCP:
Dzieląc macierz SSCP przez , wielkość próbki lub liczbę wierszy A , otrzymujemy macierz MSCP (średni kwadrat i iloczyn krzyżowy). Stąd parowa formuła tej miary asocjacji wynosi ∑ x yn A (wektoramixiyjest para kolumn zA).∑xyn x y A
Jeśli wyśrodkujesz kolumny (zmienne) , to A ' A jest macierzą rozproszenia (lub współrozproszeniem, jeśli ma być rygorystycznym), a A ' A / ( n - 1 ) jest macierzą kowariancji . Parowa formuła kowariancji to ∑ c x c yA A′A A′A/(n−1) zcxicyoznaczającymi wyśrodkowane kolumny.∑cxcyn−1 cx cy
Jeśli z- standaryzujesz kolumny (odejmujesz średnią kolumny i dzielisz przez odchylenie standardowe), to A ' A / ( n - 1 ) jest macierzą korelacji Pearsona : korelacja jest kowariancją dla zmiennych standaryzowanych. Formuła korelacji parami jest ∑ z x z yA A′A/(n−1) zzxizyoznacza standardowe kolumny. Korelacja nazywana jest również współczynnikiem liniowości.∑zxzyn−1 zx zy
Jeśli dodasz kolumny A w skali jednostkowej (doprowadzisz ich SS, sumę kwadratów, do 1), to A ′ A jest macierzą podobieństwa cosinus . Równoważnik parami wzór wydaje się zatem być Σ u x u Y = Σ x yA A′A zUxiuYoznaczający L2 znormalizowane kolumny. Podobieństwo cosinus jest również nazywane współczynnikiem proporcjonalności.∑uxuy=∑xy∑x2√∑y2√ ux uy
Jeśli wyśrodkujesz, a następnie w skali jednostkowej kolumny , to A ′ A jest ponownie macierzą korelacji Pearsona , ponieważ korelacja jest cosinus dla zmiennych centrowanych 1 , 2 : ∑ c u x c u y = ∑ c x c yA A′A 1,2 ∑cuxcuy=∑cxcy∑c2x√∑c2y√
Oprócz tych czterech głównych środków asocjacyjnych wspomnijmy także o kilku innych, również opartych na , na dodatek. Można je postrzegać jako miary alternatywne do podobieństwa cosinusowego, ponieważ przyjmują inną niż normalizacja normę, mianownik we wzorze:A′A
Współczynnik tożsamości [Zegers & ten Berge, 1985] ma mianownik w postaci średniej arytmetycznej zamiast średniej geometrycznej: . Może to być 1 wtedy i tylko wtedy, gdy porównywane kolumnyAsą identyczne.∑xy(∑x2+∑y2)/2 A
Kolejny współczynnik użyteczny, taki jak ten, nazywa się współczynnikiem podobieństwa : .∑xy∑x2+∑y2−∑xy=∑xy∑xy+∑(x−y)2
Wreszcie, jeśli wartości w są nieujemne, a ich suma w kolumnach wynosi 1 (np. Są proporcjami), to √A jest matrycąwiernościlubwspółczynnikiemBhattacharyya.A−−√′A−−√
źródło
źródło
@NRH dał dobrą odpowiedź techniczną.
źródło
(b) Zakres (A) = Col (A), z definicji Col (A). A więc A | Row (A) mapuje Row (A) na Col (A).
[Nawiasem mówiąc, daje dowód, że Ranga rzędu = Ranga kolumny!]
źródło
źródło
źródło