Interpretowanie wyników PCA

16

Czy ktoś może mi pomóc w interpretacji wyników PCA? Moje dane pochodzą z kwestionariusza dotyczącego stosunku do niedźwiedzi. Zgodnie z ładunkami zinterpretowałem jeden z moich głównych elementów jako „strach przed niedźwiedziami”. Czy wyniki tego głównego składnika byłyby powiązane ze sposobem, w jaki każdy respondent ocenia ten główny składnik (czy ocenia on / ona pozytywnie / negatywnie)?

mdewey
źródło
Krótka odpowiedź na twoje pytanie brzmi TAK.
ameba mówi Przywróć Monikę

Odpowiedzi:

13

Zasadniczo wyniki czynnikowe są obliczane jako surowe odpowiedzi ważone ładunkami czynnikowymi. Musisz więc spojrzeć na ładunki czynnikowe pierwszego wymiaru, aby zobaczyć, jak każda zmienna odnosi się do głównego komponentu. Obserwowanie wysokich dodatnich (względnie ujemnych) obciążeń związanych z określonymi zmiennymi oznacza, że ​​zmienne te przyczyniają się pozytywnie (lub odpowiednio ujemnie) do tego komponentu; dlatego osoby, które uzyskały wysoką ocenę tych zmiennych, będą miały zwykle wyższe (lub niższe) wyniki czynników w tym konkretnym wymiarze.

Narysowanie koła korelacji jest przydatne, aby mieć ogólne pojęcie o zmiennych, które przyczyniają się „pozytywnie” vs. „negatywnie” (jeśli występują) do pierwszej osi głównej, ale jeśli używasz R, możesz spojrzeć na pakiet FactoMineR i dimdesc()funkcja.

Oto przykład z USArrestsdanymi:

> data(USArrests)
> library(FactoMineR)
> res <- PCA(USArrests)
> dimdesc(res, axes=1)  # show correlation of variables with 1st axis
$Dim.1
$Dim.1$quanti
         correlation  p.value
Assault        0.918 5.76e-21
Rape           0.856 2.40e-15
Murder         0.844 1.39e-14
UrbanPop       0.438 1.46e-03
> res$var$coord  # show loadings associated to each axis
         Dim.1  Dim.2  Dim.3   Dim.4
Murder   0.844 -0.416  0.204  0.2704
Assault  0.918 -0.187  0.160 -0.3096
UrbanPop 0.438  0.868  0.226  0.0558
Rape     0.856  0.166 -0.488  0.0371

Jak widać z ostatniego wyniku, pierwszy wymiar odzwierciedla głównie akty przemocy (dowolnego rodzaju). Jeśli spojrzymy na indywidualną mapę, jasne jest, że stany znajdujące się po prawej stronie to te, w których takie działania występują najczęściej.

alternatywny tekst alternatywny tekst

Możesz być także zainteresowany tym powiązanym pytaniem: jakie są główne wyniki składowych?

chl
źródło
5

Dla mnie wyniki PCA to po prostu rearanżacja danych w formie, która pozwala mi wyjaśnić zestaw danych mniejszą liczbą zmiennych. Oceny przedstawiają, jak bardzo każdy element odnosi się do komponentu. Możesz je nazwać według analizy czynnikowej, ale ważne jest, aby pamiętać, że nie są to zmienne utajone, ponieważ PCA analizuje całą wariancję w zestawie danych, a nie tylko wspólne elementy (jak robi to analiza czynnikowa).

richiemorrisroe
źródło
Tak, masz rację mówiąc, że żaden model błędów nie jest uwzględniony w PCA, w przeciwieństwie do FA. Mam +1 za ten konkretny punkt. Zauważ, że powiedziałem „warto brać pod uwagę”, a nie to, że główne składniki wyodrębnione z PCA są prawdziwymi LV. O ile nie jesteś zainteresowany oceną niezawodności wagi lub modeli pomiarowych, nie ma znaczenia, czy używasz PCA, czy FA. Analiza danych często dotyczy wyjaśniania korelacji między zmiennymi lub znajdowania grup podmiotów, stąd pomysł interpretacji jednego lub więcej wymiarów przestrzeni czynnikowej. (...)
chl
(...) FactoMineR zawiera zestaw danych o winach, a do grania z nim można używać wielu czynników (PCA, MFA), a nawet PLS lub CCA, jak to zrobił Michel Tenenhaus.
chl
@ chl, dziękuję za podpowiedź co do paczki, sprawdzę to. W sprawie PCA kontra FA zgadzam się do pewnego momentu. Wolę FA dla większości zastosowań, ponieważ finansuję szacunki gmin (powszechna wariancja), które są bardzo przydatne w ocenie wartości określonej struktury czynników. Może to być jednak osobista preferencja.
richiemorrisroe
Masz całkowitą rację (już głosowałem za twoją wcześniejszą odpowiedzią, ponieważ była bardzo jasna). Po prostu (niechronione) PCA ma swoją własną historię analizy danych (zwłaszcza francuskiej szkoły), wraz z CA, MFA, MCA. Z drugiej strony Paul Kline ma dwie bardzo ładne książki na temat wykorzystania FA w badaniach osobowości. A nadchodząca książka Williama Revelle'a powinna podoba się użytkownikom R :) Cóż, w każdym razie myślę, że zgadzamy się, że są to przydatne narzędzia do analizy struktury macierzy korelacji.
chl
0

Wyniki PCA (różne wymiary lub elementy) zasadniczo nie mogą zostać przełożone na prawdziwą koncepcję. Uważam, że błędem jest zakładanie, że jednym z elementów jest „strach przed niedźwiedziami”, co skłoniło cię do myślenia, że ​​właśnie to miał na myśli? Procedura dotycząca głównych komponentów przekształca macierz danych w nową macierz danych o takiej samej lub mniejszej liczbie wymiarów, a uzyskane wymiary mieszczą się w zakresie od tego, który lepiej wyjaśnia wariancję do tej, która ją wyjaśnia. Składniki te są obliczane na podstawie kombinacji oryginalnych zmiennych z obliczonymi wektorami własnymi. Procedura Overal PCA przekształca oryginalne zmienne na zmienne ortogonalne (liniowo niezależne). Mam nadzieję, że to pomoże ci trochę wyjaśnić procedurę pca

mariana bardziej miękka
źródło
Czy zgodziłbyś się, że liniową kombinację niektórych zmiennych można nadal interpretować jako odzwierciedlającą pewien rodzaj ważonego wkładu każdej z nich w oś czynnikową?
chl
Tak, właśnie o to chodzi.
mariana soffer
Po co więc zapobiegać nadawaniu mu nazwy? Zmienne są po prostu uważane za zmienne oczywiste, aw niektórych przypadkach sensowne jest rozważenie ich ważonej kombinacji jako odzwierciedlającej ukryty (nieobserwowany) czynnik.
chl