Wnioski z wyników analizy głównego składnika

9

Usiłuję zrozumieć wyniki analizy głównych składników wykonanych w następujący sposób:

> head(iris)
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1          5.1         3.5          1.4         0.2  setosa
2          4.9         3.0          1.4         0.2  setosa
3          4.7         3.2          1.3         0.2  setosa
4          4.6         3.1          1.5         0.2  setosa
5          5.0         3.6          1.4         0.2  setosa
6          5.4         3.9          1.7         0.4  setosa
> res = prcomp(iris[1:4], scale=T)
> res
Standard deviations:
[1] 1.7083611 0.9560494 0.3830886 0.1439265

Rotation:
                    PC1         PC2        PC3        PC4
Sepal.Length  0.5210659 -0.37741762  0.7195664  0.2612863
Sepal.Width  -0.2693474 -0.92329566 -0.2443818 -0.1235096
Petal.Length  0.5804131 -0.02449161 -0.1421264 -0.8014492
Petal.Width   0.5648565 -0.06694199 -0.6342727  0.5235971
> 
> summary(res)
Importance of components:
                          PC1    PC2     PC3     PC4
Standard deviation     1.7084 0.9560 0.38309 0.14393
Proportion of Variance 0.7296 0.2285 0.03669 0.00518
Cumulative Proportion  0.7296 0.9581 0.99482 1.00000
> 

Wnioskuję z powyższego wyniku:

  1. Proporcja wariancji wskazuje, ile całkowitej wariancji występuje w wariancji określonego głównego składnika. W związku z tym zmienność PC1 wyjaśnia 73% całkowitej wariancji danych.

  2. Pokazane wartości obrotu są takie same jak „obciążenia” wspomniane w niektórych opisach.

  3. Biorąc pod uwagę obroty PC1, można stwierdzić, że Sepal.Length, Petal.Length i Petal.Width są bezpośrednio powiązane i wszystkie są odwrotnie powiązane z Sepal.Width (który ma ujemną wartość w obrocie PC1)

  4. Może występować czynnik w roślinach (jakiś chemiczny / fizyczny układ funkcjonalny itp.), Który może wpływać na wszystkie te zmienne (Sepal.Length, Petal.Length i Petal.Width w jednym kierunku i Sepal.Width w przeciwnym kierunku).

  5. Jeśli chcę pokazać wszystkie obroty na jednym wykresie, mogę pokazać ich względny udział w całkowitej zmienności poprzez pomnożenie każdego obrotu przez proporcję wariancji tego głównego składnika. Na przykład dla PC1 obroty 0,52, -0,26, 0,58 i 0,56 są pomnożone przez 0,73 (wariancja proporcjonalna dla PC1, pokazana w wyniku podsumowania (res)).

Czy mam rację co do powyższych wniosków?

Edytuj w odniesieniu do pytania 5: Chcę pokazać cały obrót na prostym wykresie słupkowym w następujący sposób: wprowadź opis zdjęcia tutaj

Ponieważ PC2, PC3 i PC4 mają coraz mniejszy wpływ na zmienność, czy sensowne będzie dostosowanie (zmniejszenie) obciążeń zmiennych?

rnso
źródło
Re (5): to, co nazywacie „ładunkami”, w rzeczywistości nie jest ładunkami, ale wektorami własnymi macierzy kowariancji, czyli głównymi kierunkami, czyli głównymi osiami. „Ładunki” to wektory własne pomnożone przez pierwiastki kwadratowe ich wartości własnych, tj. Przez pierwiastki kwadratowe z proporcji wyjaśnionej wariancji. Ładunki mają wiele dobrych właściwości i są przydatne do interpretacji, patrz np. Ten wątek: Ładunki kontra wektory własne w PCA: kiedy używać jednego lub drugiego? Więc tak, sensowne jest skalowanie wektorów własnych, wystarczy użyć pierwiastków kwadratowych wyjaśnionej wariancji.
ameba
@amoeba: Co jest wykreślane w biplocie PCA, obrotach lub ładunkach?
rnso
Najczęściej ładunki są drukowane, patrz moja odpowiedź tutaj do dalszej dyskusji.
ameba

Odpowiedzi:

9
  1. Tak. To jest poprawna interpretacja.
  2. Tak, wartości obrotu wskazują wartości ładowania komponentu. Potwierdza to prcomp dokumentacja , choć nie jestem pewien, dlaczego nazywają tę część aspektu „Obrót”, ponieważ implikuje to, że obciążenia zostały obrócone przy użyciu jakiejś ortogonalnej (prawdopodobnej) lub ukośnej (mniej prawdopodobnej) metody.
  3. Chociaż zdaje się, że Sepal.Length, Petal.Length i Petal.Width są pozytywnie powiązane, nie umieszczałbym tyle zapasów w małym ujemnym obciążeniu Sepal.Width na PC1; ładuje się znacznie silniej (prawie wyłącznie) na PC2. Żeby było jasne, Sepal.Width jest nadal prawdopodobnie negatywnie powiązany z pozostałymi trzema zmiennymi, ale wydaje się, że nie jest ściśle powiązany z pierwszym składnikiem zasady.
  4. W oparciu o to pytanie zastanawiam się, czy lepiej byłoby skorzystać z analizy opartej na wspólnym czynniku (CF) niż na analizie podstawowych składników (PCA). CF jest bardziej odpowiednią techniką ograniczania danych, gdy twoim celem jest odkrycie znaczących wymiarów teoretycznych - takich jak hipotetyczny czynnik roślinny może wpływać na Sepal.Length, Petal.Length i Petal.Width. Doceniam to, że pochodzisz z jakiegoś rodzaju nauk biologicznych - być może botaniki - ale w Psychologii jest kilka dobrych zapisów na temat wyróżnienia PCA przeciwko CF przez Fabrigara i in., 1999, Widaman, 2007 i innych. Zasadniczą różnicą między nimi jest to, że PCA zakłada, że ​​wszystkie wariancje są wariancją wyniku rzeczywistego - nie zakłada się błędu - podczas gdy CF dzieli wariancję wyniku rzeczywistego od wariancji błędu, przed wyodrębnieniem czynników i oszacowaniem ładunków czynników. Ostatecznie możesz uzyskać podobne rozwiązanie - czasem ludzie tak robią - ale kiedy się rozchodzą, zwykle PCA przecenia wartości ładowania i nie docenia korelacji między komponentami. Dodatkowym atutem podejścia CF jest to, że możesz użyć oszacowania maksymalnego prawdopodobieństwa, aby przeprowadzić testy istotności wartości ładowania, a jednocześnie uzyskać niektóre indeksy tego, jak dobrze wybrane rozwiązanie (1 czynnik, 2 czynniki, 3 czynniki lub 4 czynniki) wyjaśnia twoje dane.
  5. Wykreślę wartości współczynników obciążenia tak, jak macie, bez ważenia ich słupków przez proporcję wariancji dla ich poszczególnych składników. Rozumiem, co chciałbyś pokazać za pomocą takiego podejścia, ale myślę, że prawdopodobnie doprowadziłoby to czytelników do niezrozumienia wartości ładowania komponentów z Twojej analizy. Jeśli jednak chciałbyś wizualnie pokazać względną wielkość wariancji uwzględnianą przez każdy komponent, możesz rozważyć manipulowanie nieprzezroczystością pasków grup (jeśli używasz ggplot2, myślę, że jest to zrobione za pomocąalphaestetyczne), oparte na proporcji wariancji wyjaśnionej przez każdy składnik (tj. więcej jednolitych kolorów = więcej wyjaśnionych wariancji). Jednak z mojego doświadczenia wynika, że ​​twoja postać nie jest typowym sposobem prezentowania wyników PCA - myślę, że tabela lub dwie (obciążenia + wariancja wyjaśnione w jednym, korelacje składowe w innym) byłyby znacznie prostsze.

Bibliografia

Fabrigar, LR, Wegener, DT, MacCallum, RC i Strahan, EJ (1999). Ocena wykorzystania eksploracyjnej analizy czynnikowej w badaniach psychologicznych. Metody psychologiczne , 4 , 272–299.

Widaman, KF (2007). Wspólne czynniki a składniki: zleceniodawcy i zasady, błędy i nieporozumienia . W R. Cudeck i RC MacCallum (red.), Analiza czynnikowa na 100: Historyczne wydarzenia i przyszłe kierunki (s. 177-203). Mahwah, NJ: Lawrence Erlbaum.

jsakaluk
źródło
2
+1, wiele dobrych punktów tutaj. Re (2): wektory własne macierzy kowariancji nazywane są tutaj „obrotem”, ponieważ PCA jest zasadniczo obrotem układu współrzędnych, tak że nowy układ współrzędnych jest wyrównany z wektorami własnymi. Nie ma to nic wspólnego z „ortogonalną / ukośną rotacją czynników” w analizie czynnikowej. Re (5): Nie jestem pewien, czy rozumiem, co miałeś na myśli, a także nie rozumiem, w jaki sposób OP chce „pokazać” wektory własne na jednym wykresie. Być może OP ma na myśli coś w rodzaju biplota. Zatem tak, wektory własne są często skalowane według wartości własnych, ale według ich pierwiastków kwadratowych.
ameba
Chociaż ładna fabuła o tematyce kwiatowej na Twój temat, @rnso :)
jsakaluk
1
  1. Nie, nie całkowita wariancja danych. Całkowita wariancja danych, które chcesz wyrazić w 4 głównych składnikach. Zawsze możesz znaleźć większą całkowitą wariancję, dodając więcej podstawowych składników. Ale to szybko zanika.
Ćwiek
źródło