Jaka jest właściwa miara asocjacji zmiennej ze składnikiem PCA (na biplocie / wykresie ładowania)?

17

Używam FactoMineRdo zredukowania mojego zestawu danych pomiarów do ukrytych zmiennych.

! [mapa zmiennych] (http://f.cl.ly/items/071s190V1G3s1u0T0Y3M/pca.png)

Powyższa mapa zmiennych jest dla mnie jasna do interpretacji, ale jestem zdezorientowany, jeśli chodzi o powiązania między zmiennymi a składnikiem 1. Patrząc na mapę zmiennych ddpi covjest ona bardzo blisko komponentu na mapie i ddpAbsjest nieco dalej z dala. Ale nie to pokazują korelacje:

$Dim.1
$Dim.1$quanti
        correlation      p.value
jittAbs   0.9388158 1.166116e-11
rpvi      0.9388158 1.166116e-11
sd        0.9359214 1.912641e-11
ddpAbs    0.9327135 3.224252e-11
rapAbs    0.9327135 3.224252e-11
ppq5      0.9319101 3.660014e-11
ppq5Abs   0.9247266 1.066303e-10
cov       0.9150209 3.865897e-10
npvi      0.8853941 9.005243e-09
ddp       0.8554260 1.002460e-07
rap       0.8554260 1.002460e-07
jitt      0.8181207 1.042053e-06
cov5_x    0.6596751 4.533596e-04
ps13_20  -0.4593369 2.394361e-02
ps5_12   -0.5237125 8.625918e-03

Potem jest sin2ilość, która jest wysokością rpvi(na przykład), ale ta miara wcale nie jest zmienną najbliższą pierwszemu składnikowi.

Variables
           Dim.1    ctr   cos2    Dim.2    ctr   cos2  
rpvi    |  0.939  8.126  0.881 |  0.147  1.020  0.022 |
npvi    |  0.885  7.227  0.784 |  0.075  0.267  0.006 |
cov     |  0.915  7.719  0.837 | -0.006  0.001  0.000 |
jittAbs |  0.939  8.126  0.881 |  0.147  1.020  0.022 |
jitt    |  0.818  6.171  0.669 |  0.090  0.380  0.008 |
rapAbs  |  0.933  8.020  0.870 |  0.126  0.746  0.016 |
rap     |  0.855  6.746  0.732 |  0.040  0.076  0.002 |
ppq5Abs |  0.925  7.884  0.855 |  0.091  0.392  0.008 |
ppq5    |  0.932  8.007  0.868 | -0.035  0.057  0.001 |
ddpAbs  |  0.933  8.020  0.870 |  0.126  0.746  0.016 |
ddp     |  0.855  6.746  0.732 |  0.040  0.076  0.002 |
pa      |  0.265  0.646  0.070 | -0.857 34.614  0.735 |
ps5_12  | -0.524  2.529  0.274 |  0.664 20.759  0.441 |
ps13_20 | -0.459  1.945  0.211 |  0.885 36.867  0.783 |
cov5_x  |  0.660  4.012  0.435 |  0.245  2.831  0.060 |
sd      |  0.936  8.076  0.876 |  0.056  0.150  0.003 |

Na co więc mam patrzeć, jeśli chodzi o powiązanie między zmienną a pierwszym składnikiem?

Fredrik Karlsson
źródło
1
Althougt punkty na twojej mapie (która wygląda jak działka ładująca) zaśmiecają, powiedziałbym, że fabuła ładnie odpowiada wynikowi „korelacji”. Te „korelacje” są współrzędnymi Dim1. Są to ładunki, które są korelacjami między czynnikiem a zmiennymi (gdy opierasz swoją analizę na znormalizowanych danych = na korelacjach między zmiennymi).
ttnphns
Oprócz odpowiedzi poniżej, sprawdź tę, podając tam dodatkowe linki.
ttnphns

Odpowiedzi:

25

Objaśnienie wykresu obciążenia analizy PCA lub analizy czynnikowej.

Ładowanie wykres pokazuje zmienne jako punkty w przestrzeni głównych składników (lub czynników). Współrzędne zmiennych to zwykle obciążenia. (Jeśli poprawnie połączysz wykres ładowania z odpowiednim wykresem rozproszenia przypadków danych w tej samej przestrzeni komponentów, będzie to biplot.)

Miejmy 3 jakoś skorelowane zmienne, , W , U . Jesteśmy centrum je i wykonać PCA , wydobywania 2 pierwsze główne komponenty z trzech: F 1 i F 2 . Używamy obciążeń jako współrzędnych do wykonania poniższego wykresu obciążenia . Obciążenia są niestandardowymi elementami wektorów własnych, tj. Wektorami własnymi wyposażonymi w odpowiednie wariancje składowe lub wartości własne.VWUF1F2

enter image description here

Działka ładująca to płaszczyzna na zdjęciu. Rozważmy zmienną tylko . Strzałka zwykle narysowana na powierzchni ładunkowej jest tutaj oznaczona jako h ; współrzędne a 1 , a 2 są ładunkami V z F 1Vha1a2VF1 i (pamiętaj, że terminologicznie bardziej poprawne jest powiedzenie „składnik ładuje zmienną”, a nie odwrotnie).F2

Strzałka jest rzutem na płaszczyznę elementów konstrukcyjnych wektora h co jest rzeczywistą pozycję zmienną V w zmiennych przestrzeni objętej przez V , W , U . Kwadrat długość wektora, H 2 , jestwariancjaz V . Podczas gdy h 2 jestczęścią tej wariancji wyjaśnionejprzez dwa składniki.hhVVWUh2aVh2

Ładowanie, korelacja, prognozowana korelacja . Ponieważ zmienne wyśrodkowany przed ekstrakcji składników jest korelacji Pearsona między V i składnika F 1 . Które nie powinny być mylone z cos a na wykresie ładunkowej, która jest następna porcja: jest korelacji Pearsona między składnika F 1 i zmiennej wektorowej tu h ' . Jako zmienna hcosϕVF1cosαF1h jest prognozowaniem V przez (znormalizowane) komponenty w regresji liniowej (porównaj z rysowaniem geometrii regresji liniowejtutajhV), W którym obciążenia „y są współczynnikami regresji (jeśli składniki są utrzymywane prostopadłe, a wyodrębniony).a

Dalej. Możemy pamiętać (trygonometria), że . Można to rozumieć jako iloczyn skalarny między wektorem V a wektorem długości F 1 : h 1 cos ϕ . F 1 jest ustawiony na ten wektor wariancji jednostkowej, ponieważ nie ma swojej własnej wariancji oprócz tej wariancji V, którą wyjaśnia (o kwotę h ): tj. F 1a1=hcosϕVF1h1cosϕF1VhF1jest jednostką wyodrębnioną z V, W, U, a nie jednostką zaproszoną z zewnątrz. Następnie wyraźnie, 1 = tokowariancjamiędzyVaznormalizowanym, skalowanym jednostkowob(aby ustawićs1=a1=varVvarF1r=h1cosϕVb) składnikF1. Ta kowariancja jest bezpośrednio porównywalna z kowariancją między zmiennymi wejściowymi; na przykład kowariancja międzyViWbędzie iloczynem ich długości wektora pomnożonej przez cosinus między nimi.s1=varF1=1F1VW

Podsumowując, ładuje może być postrzegane jako kowariancji pomiędzy standardowy element i zmiennej obserwowanej h 1 cos φ lub równoważnie pomiędzy standardowy element, a wskazano (przez wszystkie elementy wyznaczające powierzchni) obrazu z zmienna, h 1 cos α . To cos α można nazwać korelacją V-F1 rzutowaną na podprzestrzeń komponentu F1-F2.a1h1cosϕh1cosαcosα

Wspomniana korelacja między zmienną a składową, cosϕ=a1/h , jest również nazywana obciążeniem znormalizowanym lub przeskalowanym . Jest to wygodne w interpretacji komponentów, ponieważ mieści się w przedziale [-1,1].

Związek z wektorami własnymi . Przeskalowano ładowanie powiniennienależy mylić zwektora własnegoelementu, który - jak wiemy - jest cosinus kąta pomiędzy zmienną a główny składnik. Przypomnijmy, żeładowanie jestelementem wektorowym powiększonym o pojedynczą wartość komponentu (pierwiastek kwadratowy wartości własnej). Tj. Dla zmiennej V naszego wykresu: a 1 = e 1 s 1 , gdzie s 1 to st. odchylenie (nie 1, ale oryginalne, tj. liczba pojedyncza) F 1cosϕVa1=e1s1s11F1zmienna ukryta. Potem przychodzi ten element wektora własnego , a nie samcosϕ. Zamieszanie wokół dwóch słów „cosinus” rozwiązuje się, gdy przypomnimy sobie, w jakim rodzaju reprezentacji przestrzeni jesteśmy. Wartość własna wektoratocosinuskąta obrotuzmiennej jako osi w pr. komponent jako oś w przestrzeni zmiennej (inaczej widok wykresu rozrzutu),tak jak tutaj. Podczas gdycosϕna naszym wykresie ładowaniajest miarą podobieństwa cosinusmiędzy zmienną jako wektorem a wartością pr. komponent jako ... cóż ... również jako wektor, jeśli chcesz (choć jest on rysowany jako oś na wykresie), - ponieważ jesteśmy obecnie wprzestrzeni tematyczneje1=a1s1=hs1cosϕcosϕcosϕ (który wykres obciążenia jest), gdzie zmienne skorelowane są fanami wektorów - nie są osiami ortogonalnymi, - a kąty wektorowe są miarą asocjacji - a nie obrotu podstawy przestrzeni.

Podczas gdy obciążenie jest miarą powiązania kątowego (tj. Typu produktu skalarnego) między zmienną a składnikiem skalowanym w jednostce, a obciążenie przeskalowane jest znormalizowanym obciążeniem, w którym skala zmiennej jest również zmniejszona do jednostki, ale współczynnik wektora własnego jest obciążeniem, w którym składnik jest „ponadstandardowy”, tj. został dostosowany do skali (zamiast 1); alternatywnie można to traktować jako przeskalowane obciążenie, w którym skala zmiennej została sprowadzona do h / s (zamiast 1).1/sh/s

Więc, Jakie są skojarzenia między zmienną a składnikiem? Możesz wybrać to, co lubisz. Może to być ładowanie (kowariancja ze składnikiem skalowanym jednostkowo) ; przeskalowanych załadunku cos cp (= związek o zmiennej części); korelacja między obrazem (predykcja) a składnikiem (= przewidywana korelacja cos α ). Możesz nawet wybrać wektor własny współczynnik e = / sa cosϕcosαe=a/s , jeśli potrzebujesz (choć zastanawiam się, co może być powodem). Lub wymyśl swoją własną miarę.

Kwadratowa wartość wektora własnego ma znaczenie udziału zmiennej w pr. składnik. Skalowane obciążenie kwadratowe ma znaczenie wkładu pr. komponent do zmiennej.

Związek z PCA oparty na korelacjach. Gdybyśmy przeanalizowali PCA nie tylko wyśrodkowane, ale znormalizowane (wyśrodkowane, a następnie skalowane wariancją jednostkową) zmienne, wówczas trzy wektory zmiennych (a nie ich rzuty na płaszczyznę) byłyby tej samej długości jednostkowej. Następnie automatycznie wynika, że ​​ładowanie jest korelacją , a nie kowariancją, między zmienną a składnikiem. Ale że korelacja nie będzie równy „znormalizowanej loading” na zdjęciu powyżej (w oparciu o analizę właśnie skupionych zmiennych), ponieważ PCA znormalizowanych zmiennych (korelacje oparte PCA) daje różne komponenty niż PCA z skupionych zmiennych ( PCA oparte na kowariancjach). W PCA opartym na korelacji acosϕ odczyt). ponieważ h = 1 , ale główne składnikinietymi samymigłównymi składnikami, jakie otrzymujemy z PCA opartego na kowariancjach (czytaj,a1=cosϕh=1

W analizie czynnikowej wykres obciążenia ma zasadniczo taką samą koncepcję i interpretację jak w PCA. Jedyną (ale ważną ) różnicą jest substancja . W analizie czynnikowej h - zwana wówczas „wspólnotą” zmiennej - jest częścią jej wariancji, która jest wyjaśniona wspólnymi czynnikami, które są szczególnie odpowiedzialne za korelacje między zmiennymi. Podczas pobytu w PCA wyjaśniona część h hh hjest „mieszanką” brutto - częściowo reprezentuje korelację, a częściowo korelację między zmiennymi. Dzięki analizie czynnikowej płaszczyzna obciążeń na naszym obrazie byłaby zorientowana inaczej (w rzeczywistości rozciągnie się nawet z przestrzeni naszych zmiennych 3d do czwartego wymiaru, którego nie możemy narysować; płaszczyzna obciążeń nie będzie podprzestrzenią naszego Przestrzeń 3d rozpiętą przez i pozostałe dwie zmienne), a rzut h ' będzie miał inną długość i inny kąt α . (Teoretyczną różnicę między PCA a analizą czynnikową wyjaśniono tutaj geometrycznie poprzez reprezentację przestrzeni przedmiotowej i tutaj poprzez reprezentację przestrzeni zmiennej).Vhα


Odpowiedź na prośbę @Antoni Parellada w komentarzach. Jest to równoważne, czy wolisz mówić w kategoriachwariancjiczyrozproszenia(SS odchylenia): variance = scatter /a,b , gdzie n jest rozmiarem próbki. Ponieważ mamy do czynienia z jednym zestawem danych o tym samym n , stała nie zmienia niczego we wzorach. Jeśli X jest danymi (ze zmiennymi V, W, U wyśrodkowanymi), to skład eigend w swojej macierzy kowariancji (A) daje te same wartości własne (wariancje składowe) i wektory własne, jak skład eigendoskładu (B) macierzy rozproszenia X X/(n1)nnXXXuzyskane po początkowym podzieleniu przez Xwspółczynnik n - 1 . Po tym, w formule obciążeniu (patrz środkowej części odpowiedzi)1n1 , termin h tost. odchyleniea1=hs1cosϕh w (A), ale rozproszenie korzenia (tj. norma)VvarVV w (B). Termin , który jest równy 1 , jest znormalizowanym składnikiem F 1 st. odchylenie s11F1 w (A), ale rozproszenie pierwiastkaF1w (B). Wreszciecosϕ=rjest korelacjąniewrażliwąna użycien-1w jej obliczeniach. Zatem po prostumówimypojęciowo o wariancjach (A) lub rozproszeniach (B), podczas gdy same wartości pozostają takie same we wzorze w obu przypadkach.varF1F1cosϕ=rn1

ttnphns
źródło
α ?”
shadowtalker
@ssdecontrol, dodałem linię dotyczącą tego.
ttnphns
a1=varVvarF1r=h1cosϕr=cosϕvarF1=1varV=hh=V=x2varV=x2n1
Antoni Parellada,
1
@AntoniParellada, sprawdź przypis.
ttnphns
1
F1