Używam FactoMineR
do zredukowania mojego zestawu danych pomiarów do ukrytych zmiennych.
Powyższa mapa zmiennych jest dla mnie jasna do interpretacji, ale jestem zdezorientowany, jeśli chodzi o powiązania między zmiennymi a składnikiem 1. Patrząc na mapę zmiennych ddp
i cov
jest ona bardzo blisko komponentu na mapie i ddpAbs
jest nieco dalej z dala. Ale nie to pokazują korelacje:
$Dim.1
$Dim.1$quanti
correlation p.value
jittAbs 0.9388158 1.166116e-11
rpvi 0.9388158 1.166116e-11
sd 0.9359214 1.912641e-11
ddpAbs 0.9327135 3.224252e-11
rapAbs 0.9327135 3.224252e-11
ppq5 0.9319101 3.660014e-11
ppq5Abs 0.9247266 1.066303e-10
cov 0.9150209 3.865897e-10
npvi 0.8853941 9.005243e-09
ddp 0.8554260 1.002460e-07
rap 0.8554260 1.002460e-07
jitt 0.8181207 1.042053e-06
cov5_x 0.6596751 4.533596e-04
ps13_20 -0.4593369 2.394361e-02
ps5_12 -0.5237125 8.625918e-03
Potem jest sin2
ilość, która jest wysokością rpvi
(na przykład), ale ta miara wcale nie jest zmienną najbliższą pierwszemu składnikowi.
Variables
Dim.1 ctr cos2 Dim.2 ctr cos2
rpvi | 0.939 8.126 0.881 | 0.147 1.020 0.022 |
npvi | 0.885 7.227 0.784 | 0.075 0.267 0.006 |
cov | 0.915 7.719 0.837 | -0.006 0.001 0.000 |
jittAbs | 0.939 8.126 0.881 | 0.147 1.020 0.022 |
jitt | 0.818 6.171 0.669 | 0.090 0.380 0.008 |
rapAbs | 0.933 8.020 0.870 | 0.126 0.746 0.016 |
rap | 0.855 6.746 0.732 | 0.040 0.076 0.002 |
ppq5Abs | 0.925 7.884 0.855 | 0.091 0.392 0.008 |
ppq5 | 0.932 8.007 0.868 | -0.035 0.057 0.001 |
ddpAbs | 0.933 8.020 0.870 | 0.126 0.746 0.016 |
ddp | 0.855 6.746 0.732 | 0.040 0.076 0.002 |
pa | 0.265 0.646 0.070 | -0.857 34.614 0.735 |
ps5_12 | -0.524 2.529 0.274 | 0.664 20.759 0.441 |
ps13_20 | -0.459 1.945 0.211 | 0.885 36.867 0.783 |
cov5_x | 0.660 4.012 0.435 | 0.245 2.831 0.060 |
sd | 0.936 8.076 0.876 | 0.056 0.150 0.003 |
Na co więc mam patrzeć, jeśli chodzi o powiązanie między zmienną a pierwszym składnikiem?
correlation
pca
factor-analysis
association-measure
biplot
Fredrik Karlsson
źródło
źródło
Odpowiedzi:
Objaśnienie wykresu obciążenia analizy PCA lub analizy czynnikowej.
Ładowanie wykres pokazuje zmienne jako punkty w przestrzeni głównych składników (lub czynników). Współrzędne zmiennych to zwykle obciążenia. (Jeśli poprawnie połączysz wykres ładowania z odpowiednim wykresem rozproszenia przypadków danych w tej samej przestrzeni komponentów, będzie to biplot.)
Miejmy 3 jakoś skorelowane zmienne, , W , U . Jesteśmy centrum je i wykonać PCA , wydobywania 2 pierwsze główne komponenty z trzech: F 1 i F 2 . Używamy obciążeń jako współrzędnych do wykonania poniższego wykresu obciążenia . Obciążenia są niestandardowymi elementami wektorów własnych, tj. Wektorami własnymi wyposażonymi w odpowiednie wariancje składowe lub wartości własne.V W U F1 F2
Działka ładująca to płaszczyzna na zdjęciu. Rozważmy zmienną tylko . Strzałka zwykle narysowana na powierzchni ładunkowej jest tutaj oznaczona jako h ′ ; współrzędne a 1 , a 2 są ładunkami V z F 1V h′ a1 a2 V F1 i (pamiętaj, że terminologicznie bardziej poprawne jest powiedzenie „składnik ładuje zmienną”, a nie odwrotnie).F2
Strzałka jest rzutem na płaszczyznę elementów konstrukcyjnych wektora h co jest rzeczywistą pozycję zmienną V w zmiennych przestrzeni objętej przez V , W , U . Kwadrat długość wektora, H 2 , jestwariancjaz V . Podczas gdy h ′ 2 jestczęścią tej wariancji wyjaśnionejprzez dwa składniki.h′ h V V W U h2 a V h′2
Ładowanie, korelacja, prognozowana korelacja . Ponieważ zmienne wyśrodkowany przed ekstrakcji składników jest korelacji Pearsona między V i składnika F 1 . Które nie powinny być mylone z cos a na wykresie ładunkowej, która jest następna porcja: jest korelacji Pearsona między składnika F 1 i zmiennej wektorowej tu h ' . Jako zmienna hcosϕ V F1 cosα F1 h′ jest prognozowaniem V przez (znormalizowane) komponenty w regresji liniowej (porównaj z rysowaniem geometrii regresji liniowejtutajh′ V ), W którym obciążenia „y są współczynnikami regresji (jeśli składniki są utrzymywane prostopadłe, a wyodrębniony).a
Dalej. Możemy pamiętać (trygonometria), że . Można to rozumieć jako iloczyn skalarny między wektorem V a wektorem długości F 1 : h ⋅ 1 ⋅ cos ϕ . F 1 jest ustawiony na ten wektor wariancji jednostkowej, ponieważ nie ma swojej własnej wariancji oprócz tej wariancji V, którą wyjaśnia (o kwotę h ′ ): tj. F 1a1=h⋅cosϕ V F1 h⋅1⋅cosϕ F1 V h′ F1 jest jednostką wyodrębnioną z V, W, U, a nie jednostką zaproszoną z zewnątrz. Następnie wyraźnie, 1 = √tokowariancjamiędzyVaznormalizowanym, skalowanym jednostkowob(aby ustawićs1= √a1=varV⋅varF1−−−−−−−−−−√⋅r=h⋅1⋅cosϕ V b ) składnikF1. Ta kowariancja jest bezpośrednio porównywalna z kowariancją między zmiennymi wejściowymi; na przykład kowariancja międzyViWbędzie iloczynem ich długości wektora pomnożonej przez cosinus między nimi.s1=varF1−−−−−√=1 F1 V W
Podsumowując, ładuje może być postrzegane jako kowariancji pomiędzy standardowy element i zmiennej obserwowanej h ⋅ 1 ⋅ cos φ lub równoważnie pomiędzy standardowy element, a wskazano (przez wszystkie elementy wyznaczające powierzchni) obrazu z zmienna, h ′ ⋅ 1 ⋅ cos α . To cos α można nazwać korelacją V-F1 rzutowaną na podprzestrzeń komponentu F1-F2.a1 h⋅1⋅cosϕ h′⋅1⋅cosα cosα
Wspomniana korelacja między zmienną a składową,cosϕ=a1/h , jest również nazywana obciążeniem znormalizowanym lub przeskalowanym . Jest to wygodne w interpretacji komponentów, ponieważ mieści się w przedziale [-1,1].
Związek z wektorami własnymi . Przeskalowano ładowanie powiniennienależy mylić zwektora własnegoelementu, który - jak wiemy - jest cosinus kąta pomiędzy zmienną a główny składnik. Przypomnijmy, żeładowanie jestelementem wektorowym powiększonym o pojedynczą wartość komponentu (pierwiastek kwadratowy wartości własnej). Tj. Dla zmiennej V naszego wykresu: a 1 = e 1 s 1 , gdzie s 1 to st. odchylenie (nie 1, ale oryginalne, tj. liczba pojedyncza) F 1cosϕ V a1=e1s1 s1 1 F1 zmienna ukryta. Potem przychodzi ten element wektora własnego , a nie samcosϕ. Zamieszanie wokół dwóch słów „cosinus” rozwiązuje się, gdy przypomnimy sobie, w jakim rodzaju reprezentacji przestrzeni jesteśmy. Wartość własna wektoratocosinuskąta obrotuzmiennej jako osi w pr. komponent jako oś w przestrzeni zmiennej (inaczej widok wykresu rozrzutu),tak jak tutaj. Podczas gdycosϕna naszym wykresie ładowaniajest miarą podobieństwa cosinusmiędzy zmienną jako wektorem a wartością pr. komponent jako ... cóż ... również jako wektor, jeśli chcesz (choć jest on rysowany jako oś na wykresie), - ponieważ jesteśmy obecnie wprzestrzeni tematyczneje1=a1s1=hs1cosϕ cosϕ cosϕ (który wykres obciążenia jest), gdzie zmienne skorelowane są fanami wektorów - nie są osiami ortogonalnymi, - a kąty wektorowe są miarą asocjacji - a nie obrotu podstawy przestrzeni.
Podczas gdy obciążenie jest miarą powiązania kątowego (tj. Typu produktu skalarnego) między zmienną a składnikiem skalowanym w jednostce, a obciążenie przeskalowane jest znormalizowanym obciążeniem, w którym skala zmiennej jest również zmniejszona do jednostki, ale współczynnik wektora własnego jest obciążeniem, w którym składnik jest „ponadstandardowy”, tj. został dostosowany do skali (zamiast 1); alternatywnie można to traktować jako przeskalowane obciążenie, w którym skala zmiennej została sprowadzona do h / s (zamiast 1).1/s h/s
Więc, Jakie są skojarzenia między zmienną a składnikiem? Możesz wybrać to, co lubisz. Może to być ładowanie (kowariancja ze składnikiem skalowanym jednostkowo) ; przeskalowanych załadunku cos cp (= związek o zmiennej części); korelacja między obrazem (predykcja) a składnikiem (= przewidywana korelacja cos α ). Możesz nawet wybrać wektor własny współczynnik e = / sa cosϕ cosα e=a/s , jeśli potrzebujesz (choć zastanawiam się, co może być powodem). Lub wymyśl swoją własną miarę.
Kwadratowa wartość wektora własnego ma znaczenie udziału zmiennej w pr. składnik. Skalowane obciążenie kwadratowe ma znaczenie wkładu pr. komponent do zmiennej.
Związek z PCA oparty na korelacjach. Gdybyśmy przeanalizowali PCA nie tylko wyśrodkowane, ale znormalizowane (wyśrodkowane, a następnie skalowane wariancją jednostkową) zmienne, wówczas trzy wektory zmiennych (a nie ich rzuty na płaszczyznę) byłyby tej samej długości jednostkowej. Następnie automatycznie wynika, że ładowanie jest korelacją , a nie kowariancją, między zmienną a składnikiem. Ale że korelacja nie będzie równy „znormalizowanej loading” na zdjęciu powyżej (w oparciu o analizę właśnie skupionych zmiennych), ponieważ PCA znormalizowanych zmiennych (korelacje oparte PCA) daje różne komponenty niż PCA z skupionych zmiennych ( PCA oparte na kowariancjach). W PCA opartym na korelacji acosϕ odczyt). ponieważ h = 1 , ale główne składnikiniesątymi samymigłównymi składnikami, jakie otrzymujemy z PCA opartego na kowariancjach (czytaj,a1=cosϕ h=1
W analizie czynnikowej wykres obciążenia ma zasadniczo taką samą koncepcję i interpretację jak w PCA. Jedyną (ale ważną ) różnicą jest substancja . W analizie czynnikowej h ′ - zwana wówczas „wspólnotą” zmiennej - jest częścią jej wariancji, która jest wyjaśniona wspólnymi czynnikami, które są szczególnie odpowiedzialne za korelacje między zmiennymi. Podczas pobytu w PCA wyjaśniona część h ′h′ h′ h′ jest „mieszanką” brutto - częściowo reprezentuje korelację, a częściowo korelację między zmiennymi. Dzięki analizie czynnikowej płaszczyzna obciążeń na naszym obrazie byłaby zorientowana inaczej (w rzeczywistości rozciągnie się nawet z przestrzeni naszych zmiennych 3d do czwartego wymiaru, którego nie możemy narysować; płaszczyzna obciążeń nie będzie podprzestrzenią naszego Przestrzeń 3d rozpiętą przez i pozostałe dwie zmienne), a rzut h ' będzie miał inną długość i inny kąt α . (Teoretyczną różnicę między PCA a analizą czynnikową wyjaśniono tutaj geometrycznie poprzez reprezentację przestrzeni przedmiotowej i tutaj poprzez reprezentację przestrzeni zmiennej).V h′ α
Odpowiedź na prośbę @Antoni Parellada w komentarzach. Jest to równoważne, czy wolisz mówić w kategoriachwariancjiczyrozproszenia(SS odchylenia): variance = scatter /a,b , gdzie n jest rozmiarem próbki. Ponieważ mamy do czynienia z jednym zestawem danych o tym samym n , stała nie zmienia niczego we wzorach. Jeśli X jest danymi (ze zmiennymi V, W, U wyśrodkowanymi), to skład eigend w swojej macierzy kowariancji (A) daje te same wartości własne (wariancje składowe) i wektory własne, jak skład eigendoskładu (B) macierzy rozproszenia X ′ X/(n−1) n n X X′X uzyskane po początkowym podzieleniu przez √X współczynnik n - 1 . Po tym, w formule obciążeniu (patrz środkowej części odpowiedzi)1n−1−−−−−√ , termin h tost. odchylenie √a1=h⋅s1⋅cosϕ h w (A), ale rozproszenie korzenia (tj. norma)‖V‖varV−−−−√ ∥V∥ w (B). Termin , który jest równy 1 , jest znormalizowanym składnikiem F 1 st. odchylenie √s1 1 F1 w (A), ale rozproszenie pierwiastka‖F1‖w (B). Wreszciecosϕ=rjest korelacjąniewrażliwąna użycien-1w jej obliczeniach. Zatem po prostumówimypojęciowo o wariancjach (A) lub rozproszeniach (B), podczas gdy same wartości pozostają takie same we wzorze w obu przypadkach.varF1−−−−−√ ∥F1∥ cosϕ=r n−1
źródło