Czytając o PCA, natrafiłem na następujące wyjaśnienie:
Załóżmy, że mamy zestaw danych, w którym każdy punkt danych reprezentuje wyniki pojedynczego ucznia w teście matematycznym, teście fizyki, teście czytania ze zrozumieniem i teście słownictwa.
Znajdujemy dwa pierwsze główne składniki, które wychwytują 90% zmienności danych i interpretują ich obciążenia. Dochodzimy do wniosku, że pierwszy główny składnik reprezentuje ogólną zdolność akademicką, a drugi stanowi kontrast między zdolnością ilościową a zdolnością werbalną.
Tekst stwierdza, że ładunki PC1 i PC2 są dla PC1 i dla PC2, i oferuje następujące wyjaśnienie:( 0,5 , 0,5 , - 0,5 , - 0,5 )
[T] pierwszy składnik jest proporcjonalny do średniego wyniku, a drugi składnik mierzy różnicę między pierwszą parą wyników a drugą parą wyników.
Nie jestem w stanie zrozumieć, co oznacza to wyjaśnienie.
Odpowiedzi:
Ładunki (których nie należy mylić z wektorami własnymi) mają następujące właściwości:
Wyodrębniono 2 pierwsze komputery PC z 4. Matryca obciążeń i wartości własne:ZA
W tym przypadku obie wartości własne są równe. Jest to rzadki przypadek w prawdziwym świecie, mówi się, że PC1 i PC2 mają taką samą „siłę” wyjaśniającą.
Załóżmy, że obliczyłeś także wartości składowe,do X^= C A′ ZA X^
Nx2
macierz i ustandaryzowałeś (średnia = 0, odchylenie standardowe = 1) w każdej kolumnie. Następnie (jak mówi punkt 2 powyżej), . Ponieważ jednak pozostawiłeś tylko 2 komputery na 4 (brakuje 2 kolejnych kolumn w ), przywrócone wartości danych nie są dokładne, - wystąpił błąd (jeśli wartości własne 3, 4 nie są zero).X = C A ' XDOBRZE. Jakie są współczynniki do przewidywania składników według zmiennych ? Oczywiście, gdyby były pełne , byłyby to . Za pomocą macierzy obciążania niekwadratowego możemy obliczyć je jako , gdzie jest kwadratową macierzą diagonalną z wartościami własnymi na jej przekątnej, oraz indeks górny oznacza pseudoinwersję. W Twoim przypadku:ZA B=(A−1)′ B=A⋅diag(eigenvalues)−1=(A+)′
4x4
diag(eigenvalues)
+
Tak więc, jeśli jest macierzą oryginalnych zmiennych wyśrodkowanych (lub zmiennych znormalizowanych, jeśli wykonujesz PCA raczej na podstawie korelacji niż kowariancji), to ; to znormalizowane oceny głównych składników. Który w twoim przykładzie to:X C=XB C
Nx4
W tym przykładzie okazało się, że , ale w ogólnym przypadku są one różne.B=A
Uwaga : Powyższa formuła dla współczynników do obliczenia wyniki elementów, , jest równoważna z istota macierz kowariancji (lub korelacji) zmiennych. Ta ostatnia formuła pochodzi bezpośrednio z teorii regresji liniowej. Te dwie formuły są równoważne tylko w kontekście PCA. W analizie czynnikowej nie są i do obliczenia wyników czynnikowych (które są zawsze przybliżone w FA) należy polegać na drugiej formule. B = R - 1 A RB=A⋅diag(eigenvalues)−1 B=R−1A R
Powiązane odpowiedzi moje:
Bardziej szczegółowe informacje na temat obciążeń vs wektory własne .
Jak obliczane są oceny głównych składników i oceny czynników .
źródło