Jak interpretować ładunki PCA?

13

Czytając o PCA, natrafiłem na następujące wyjaśnienie:

Załóżmy, że mamy zestaw danych, w którym każdy punkt danych reprezentuje wyniki pojedynczego ucznia w teście matematycznym, teście fizyki, teście czytania ze zrozumieniem i teście słownictwa.

Znajdujemy dwa pierwsze główne składniki, które wychwytują 90% zmienności danych i interpretują ich obciążenia. Dochodzimy do wniosku, że pierwszy główny składnik reprezentuje ogólną zdolność akademicką, a drugi stanowi kontrast między zdolnością ilościową a zdolnością werbalną.

Tekst stwierdza, że ​​ładunki PC1 i PC2 są dla PC1 i dla PC2, i oferuje następujące wyjaśnienie:( 0,5 , 0,5 , - 0,5 , - 0,5 )(0.5,0.5,0.5,0.5)(0.5,0.5,0.5,0.5)

[T] pierwszy składnik jest proporcjonalny do średniego wyniku, a drugi składnik mierzy różnicę między pierwszą parą wyników a drugą parą wyników.

Nie jestem w stanie zrozumieć, co oznacza to wyjaśnienie.

priyanka
źródło
7
Jakoś odpowiedź @ ttnphns zawiera wiele szczegółów matematycznych, ale myślę, że pierwotne pytanie było naprawdę proste: dlaczego wektor obciążeń dla PC1 wynoszący (0,5, 0,5, 0,5, 0,5) oznacza, że ​​pierwszy składnik jest „proporcjonalny do średniego wyniku „? Odpowiedź brzmi: ładunki są [proporcjonalne do] współczynników w liniowej kombinacji oryginalnych zmiennych, które tworzą PC1. Tak więc twój pierwszy PC1 jest sumą wszystkich czterech zmiennych razy 0,5. Co oznacza, że ​​jest proporcjonalna do średniej z czterech zmiennych. I podobnie z PC2. Myślę, że to odpowiada na pierwotne pytanie.
ameba mówi Przywróć Monikę
@amoeba - Czy wiesz, jak trudno jest znaleźć tak proste wyjaśnienie obciążeń. Jakoś wszędzie wszędzie jest pełno żargonu żółci wokół mnie, zanim zdecyduję się przejść do następnego wyjaśnienia w Google. Dziękuję Ci!
MiloMinderbinder

Odpowiedzi:

13

Ładunki (których nie należy mylić z wektorami własnymi) mają następujące właściwości:

  1. Ich sumy kwadratów w ramach każdego komponentu są wartościami własnymi (wariancje komponentów).
  2. Obciążenia to współczynniki w kombinacji liniowej przewidujące zmienną przez (znormalizowane) składniki.

Wyodrębniono 2 pierwsze komputery PC z 4. Matryca obciążeń i wartości własne:A

A (loadings)
         PC1           PC2
X1   .5000000000   .5000000000 
X2   .5000000000   .5000000000 
X3   .5000000000  -.5000000000 
X4   .5000000000  -.5000000000
Eigenvalues:
    1.0000000000  1.0000000000

W tym przypadku obie wartości własne są równe. Jest to rzadki przypadek w prawdziwym świecie, mówi się, że PC1 i PC2 mają taką samą „siłę” wyjaśniającą.

Załóżmy, że obliczyłeś także wartości składowe, Nx2macierz i ustandaryzowałeś (średnia = 0, odchylenie standardowe = 1) w każdej kolumnie. Następnie (jak mówi punkt 2 powyżej), . Ponieważ jednak pozostawiłeś tylko 2 komputery na 4 (brakuje 2 kolejnych kolumn w ), przywrócone wartości danych nie są dokładne, - wystąpił błąd (jeśli wartości własne 3, 4 nie są zero).X = C A ' XCX^=CAAX^

DOBRZE. Jakie są współczynniki do przewidywania składników według zmiennych ? Oczywiście, gdyby były pełne , byłyby to . Za pomocą macierzy obciążania niekwadratowego możemy obliczyć je jako , gdzie jest kwadratową macierzą diagonalną z wartościami własnymi na jej przekątnej, oraz indeks górny oznacza pseudoinwersję. W Twoim przypadku:A4x4B=(A1)B=Adiag(eigenvalues)1=(A+)diag(eigenvalues)+

diag(eigenvalues):
1 0
0 1

B (coefficients to predict components by original variables):
    PC1           PC2
X1 .5000000000   .5000000000 
X2 .5000000000   .5000000000 
X3 .5000000000  -.5000000000 
X4 .5000000000  -.5000000000

Tak więc, jeśli jest macierzą oryginalnych zmiennych wyśrodkowanych (lub zmiennych znormalizowanych, jeśli wykonujesz PCA raczej na podstawie korelacji niż kowariancji), to ; to znormalizowane oceny głównych składników. Który w twoim przykładzie to:XNx4C=XBC

PC1 = 0,5 * X1 + 0,5 * X2 + 0,5 * X3 + 0,5 * X4 ~ (X1 + X2 + X3 + X4) / 4

„pierwszy składnik jest proporcjonalny do średniego wyniku”

PC2 = 0,5 * X1 + 0,5 * X2 - 0,5 * X3 - 0,5 * X4 = (0,5 * X1 + 0,5 * X2) - (0,5 * X3 + 0,5 * X4)

„drugi składnik mierzy różnicę między pierwszą parą wyników a drugą parą wyników”

W tym przykładzie okazało się, że , ale w ogólnym przypadku są one różne.B=A


Uwaga : Powyższa formuła dla współczynników do obliczenia wyniki elementów, , jest równoważna z istota macierz kowariancji (lub korelacji) zmiennych. Ta ostatnia formuła pochodzi bezpośrednio z teorii regresji liniowej. Te dwie formuły są równoważne tylko w kontekście PCA. W analizie czynnikowej nie są i do obliczenia wyników czynnikowych (które są zawsze przybliżone w FA) należy polegać na drugiej formule. B = R - 1 A RB=Adiag(eigenvalues)1B=R1AR


Powiązane odpowiedzi moje:

Bardziej szczegółowe informacje na temat obciążeń vs wektory własne .

Jak obliczane są oceny głównych składników i oceny czynników .

ttnphns
źródło
2
Jeżeli 2 z 4 składników stanowią 90% zmienności, dlaczego ich wartości własne sumują się do 2?
Nick Cox,
Nick, wierzę, że to pytanie do OP. Nie podał danych ani macierzy kowariancji / korelacji. Wszystko, co mieliśmy od niego, to (raczej nierealistyczna) matryca ładowania 2 pierwszych komputerów.
ttnphns
3
4×44150%90%