W analizie głównego składnika (PCA) otrzymujemy wektory własne (wektory jednostkowe) i wartości własne. Teraz zdefiniujmy ładunki jako
Wiem, że wektory własne to tylko kierunki, a obciążenia (jak zdefiniowano powyżej) obejmują również wariancję wzdłuż tych kierunków. Ale dla lepszego zrozumienia chciałbym wiedzieć, gdzie powinienem używać ładunków zamiast wektorów własnych? Przykład byłby idealny!
Zasadniczo widziałem tylko osoby używające wektorów własnych, ale co jakiś czas używają ładunków (jak zdefiniowano powyżej), a potem mam wrażenie, że tak naprawdę nie rozumiem różnicy.
R
użytkowników na tej stronie nazywa wektory własne PCA „ładowaniami”, które prawdopodobnie pochodzą z dokumentacji funkcji.Wydaje się, że istnieje duże zamieszanie dotyczące obciążeń, współczynników i wektorów własnych. Ładunki słów pochodzą z analizy czynnikowej i odnoszą się do współczynników regresji macierzy danych do czynników. Nie są to współczynniki definiujące czynniki. Zobacz na przykład Mardia, Bibby i Kent lub inne podręczniki statystyki na wielu odmianach.
W ostatnich latach ładowanie słów było używane do wskazania współczynników PC. Tutaj wydaje się, że służyło do wskazywania współczynników pomnożonych przez sqrt wartości własnych macierzy. Nie są to ilości powszechnie stosowane w PCA. Główne składniki są zdefiniowane jako suma zmiennych ważonych współczynnikami normy jednostkowej. W ten sposób komputery PC mają normę równą odpowiedniej wartości własnej, która z kolei jest równa wariancji wyjaśnionej przez składnik.
W analizie czynnikowej czynniki muszą mieć normę jednostkową. Ale FA i PCA są zupełnie inne. Obracanie współczynnika PC jest bardzo rzadkie, ponieważ niszczy optymalność komponentów.
W FA czynniki nie są jednoznacznie zdefiniowane i można je oszacować na różne sposoby. Ważnymi wielkościami są ładunki (te prawdziwe) i społeczności, które są używane do badania struktury macierzy kowariancji. PCA lub PLS powinny być stosowane do oszacowania składników.
źródło
L
używanej do zapisywania macierzy kowariancji, tak jak wS = LL' + C
przypadkuC
macierzy diagonalnej. nie mają one nic wspólnego ze współczynnikami komputerów.they have nothing to do with the PCs' coefficients
Obliczamy ładunki w PCA, tak jak robimy to w FA. Modele są różne, ale znaczenie obciążeń jest podobne w obu metodach.Ładunki = wektory własne ortonormalne⋅ Pierwiastek kwadratowy z (bezwzględne wartości własne) W tym przypadku wektory własne ortonormalne (tj. Określenie wektory własne ortonormalne) zapewniają kierunek, a wartość pierwiastek kwadratowy z (wartości własne bezwzględne).
Zwykle ludzie mówią, że znaki w ładunkach nie mają znaczenia, ale ich wielkość jest ważna. Ale jeśli odwrócimy kierunek jednego wektora własnego (zachowując znak innych wektorów własnych, ponieważ są), wówczas wyniki czynnikowe zostaną zmienione. Dlatego na dalszą analizę wpłynie to znacząco.
Do tej pory nie mogłem znaleźć zadowalającego rozwiązania tej dwuznaczności.
źródło
Wydaje się, że istnieje pewne zamieszanie w tej sprawie, dlatego przedstawię kilka spostrzeżeń i wskazówkę, gdzie w literaturze można znaleźć doskonałą odpowiedź.
Po pierwsze, PCA i analiza czynnikowa (FA) są powiązane. Zasadniczo główne składniki są z definicji ortogonalne, podczas gdy czynniki - analogiczny byt w FA - nie są. Mówiąc najprościej, główne komponenty obejmują przestrzeń czynników w arbitralny, ale niekoniecznie użyteczny sposób, ponieważ pochodzą z czystej analizy danych. Czynniki z drugiej strony reprezentują byty świata rzeczywistego, które są przypadkowe tylko ortogonalne (tj. Nieskorelowane lub niezależne).
Powiedzieć bierzemy s obserwacje z każdego l przedmiotów. Można je ułożyć w macierz danych D, mającą s wierszy i l kolumn. D można rozkładać na macierz S oceny i macierz obciążenia L tak, że D = SL . S będzie miał s wierszy i L będzie mieć l kolumny, drugi wymiar każdy oznacza liczbę czynników n . Celem analizy czynnikowej jest rozkład Dw taki sposób, aby ujawnić podstawowe wyniki i czynniki. Obciążenia w L powiedzieć nam proporcji poszczególnych punktów tworzących uwag D .
W PCA L ma wektory własne macierzy korelacji lub kowariancji D jako swoje kolumny. Są one konwencjonalnie ułożone w kolejności malejącej odpowiednich wartości własnych. Wartość n - tj. Liczbę znaczących głównych składników, które należy zachować w analizie, a zatem liczbę rzędów L - określa się zazwyczaj za pomocą wykresu piargowego wartości własnych lub jednej z wielu innych metod, które można znaleźć w literatura. Kolumny S w PCA same tworzą n abstrakcyjnych głównych składników. Wartość n jest podstawowym wymiarem zbioru danych.
Celem analizy czynnika jest transformacja komponentów na sensowne streszczenie czynników przez wykorzystanie transformacji macierzy T tak, że D = STT -1 l . ( ST ) jest transformowaną macierzą wyników, a ( T -1 L ) jest transformowaną macierzą obciążeń.
Powyższe wyjaśnienie z grubsza wynika z zapisu Edmunda R. Malinowskiego z jego doskonałej analizy czynnikowej w chemii . Bardzo polecam otwierające rozdziały jako wprowadzenie do tematu.
źródło
Jestem trochę zdezorientowany tymi nazwami i szukałem w książce zatytułowanej „Metody statystyczne w nauce o atmosferze”, która dała mi streszczenie zróżnicowanej terminologii PCA, oto zrzuty ekranu w książce, mam nadzieję, że to pomoże.
źródło