Jaki jest intuicyjny powód wykonywania rotacji w analizie czynnikowej / PCA i jak wybrać odpowiedni obrót?

33

Moje pytania

  1. Jaki jest intuicyjny powód wykonywania rotacji czynników w analizie czynnikowej (lub komponentach w PCA)?

    Rozumiem, że jeśli zmienne są prawie jednakowo ładowane w najlepszych komponentach (lub czynnikach), to oczywiście trudno jest odróżnić komponenty. W takim przypadku można użyć rotacji, aby uzyskać lepsze rozróżnienie komponentów. Czy to jest poprawne?

  2. Jakie są konsekwencje wykonywania rotacji? Na co to wpływa?

  3. Jak wybrać odpowiedni obrót? Istnieją obroty ortogonalne i obroty ukośne. Jak wybierać między nimi i jakie są implikacje tego wyboru?

Wyjaśnij intuicyjnie przy użyciu najmniej równań matematycznych. Niewiele z rozłożonych odpowiedzi było trudnych z matematyki, ale szukam więcej z intuicyjnych powodów i praktycznych zasad.

GeorgeOfTheRF
źródło

Odpowiedzi:

34
  1. Powód rotacji . Rotacje wykonuje się w celu interpretacji wyodrębnionych czynników w analizie czynnikowej (lub składników w PCA, jeśli odważysz się użyć PCA jako techniki analizy czynnikowej). Masz rację, opisując swoje zrozumienie. Rotacja odbywa się w pogoni za pewną strukturą macierzy obciążeniowej, którą można nazwać prostą strukturą . To wtedy różne czynniki ładują różne zmienne1. [Uważam, że bardziej słuszne jest stwierdzenie, że „czynnik ładuje zmienną” niż „zmienna ładuje czynnik”, ponieważ jest to czynnik, który jest „zmienny” lub „za”, aby je skorelować, ale można powiedzieć jak chcesz.] W pewnym sensie typowa prosta struktura to miejsce, w którym pojawiają się „klastry” skorelowanych zmiennych. Następnie interpretujesz czynnik jako znaczenie, które leży na przecięciu znaczenia zmiennych, które są wystarczająco obciążone przez czynnik; dlatego, aby otrzymać inne znaczenie, czynniki powinny ładować zmienne w różny sposób. Ogólna zasada jest taka, że ​​czynnik powinien ładować przyzwoicie co najmniej 3 zmienne.

  2. Konsekwencje . Rotacja nie zmienia pozycji zmiennych względem siebie w przestrzeni czynników, tzn. Zachowane są korelacje między zmiennymi. Zmieniane są współrzędne punktów końcowych wektorów zmiennych na osiach czynników - ładunki (więcej informacji w tej witrynie można znaleźć w celu znalezienia „wykresu ładowania” i „biplota”) . Po prostopadłym obrocie macierzy obciążenia wariancje czynników ulegają zmianie, ale czynniki pozostają nieskorelowane, a zmienne wspólnoty zostają zachowane.2

    W skośnym obrocie dopuszcza się, że czynniki stracą swoją nieskorelację, jeśli spowoduje to wyraźniejszą „prostą strukturę”. Jednak interpretacja skorelowanych czynników jest trudniejszą sztuką, ponieważ trzeba wyprowadzić znaczenie z jednego czynnika, aby nie zanieczyściło znaczenia innego, z którym jest skorelowane. Oznacza to, że musisz interpretować czynniki, powiedzmy równolegle, a nie jeden po drugim. Ukośne liście obrotu cię z dwóch matryc obciążenia zamiast jednego: wzór matrycy i struktura macierzy . ( , gdzie jest macierzą korelacji między czynnikami; , gdziePSS=PCCC=QQQjest macierzą obrotu ukośnego: , gdzie była macierzą obciążenia przed każdym obrotem.) kowariancje) między czynnikami i zmiennymi. Przez większość czasu interpretujemy czynniki według ładunków wzoru, ponieważ współczynniki te reprezentują unikalną indywidualną inwestycję czynnika w zmienną. Ukośne obrót przechowuje zmienne communalities, ale communalities nie są równe sumy rzędów kwadratów lub w . Ponadto, ponieważ czynniki są skorelowane, ich wariancje częściowo nakładają się .S=AQAPS3

    Oba ortogonalne i ukośne obroty mają oczywiście wpływ na wyniki czynnikowe / składowe, które możesz chcieć obliczyć (wyszukaj „wyniki czynnikowe” na tej stronie). Rotacja daje ci inne czynniki niż te, które miałeś zaraz po ekstrakcji . Dziedziczą swoją moc predykcyjną (dla zmiennych i ich korelacji), ale otrzymają od ciebie inne istotne znaczenie. Po rotacji nie możesz powiedzieć „ten czynnik jest ważniejszy od tego”, ponieważ zostały one obrócone względem siebie (szczerze mówiąc, w FA, w przeciwieństwie do PCA, trudno powiedzieć to nawet po ekstrakcji, ponieważ czynniki są modelowane jako już „ważne”).4

  3. Wybór . Istnieje wiele form rotacji ortogonalnych i ukośnych. Czemu? Po pierwsze, ponieważ koncepcja „prostej struktury” nie jest jednoznaczna i można ją sformułować nieco inaczej. Na przykład varimax - najpopularniejsza metoda ortogonalna - próbuje zmaksymalizować wariancję między kwadratowymi wartościami obciążeń każdego czynnika; czasami stosowana metoda ortogonalna quartimax minimalizuje liczbę czynników potrzebnych do wyjaśnienia zmiennej i często wytwarza tak zwany „czynnik ogólny”. Po drugie, różne obroty mają różne cele boczne oprócz prostej struktury. Nie będę wchodził w szczegóły tych skomplikowanych tematów, ale możesz przeczytać o nich osobiście.

    Czy należy preferować rotację prostopadłą czy skośną? Cóż, czynniki ortogonalne są łatwiejsze do interpretacji, a cały model czynników jest statystycznie prostszy (oczywiście predyktory ortogonalne). Ale tam narzucasz ortogonalność ukrytym cechom, które chcesz odkryć; czy jesteś pewien, że powinny być niezwiązane z kierunkiem studiów? Co jeśli nie są? Metody obrotu ukośnego5(chociaż każdy ma własne skłonności) pozwalają, ale nie zmuszają, do korelacji czynników, a zatem są mniej restrykcyjne. Jeśli skośny obrót pokazuje, że czynniki są tylko słabo skorelowane, możesz być pewien, że „w rzeczywistości” tak jest, a następnie możesz zwrócić się do obrotu ortogonalnego z czystym sumieniem. Z drugiej strony, jeśli czynniki są bardzo skorelowane, wygląda to nienaturalnie (dla koncepcyjnie różnych ukrytych cech, szczególnie jeśli rozwijasz ekwipunek psychologiczny lub podobny, - pamiętaj, że sam czynnik jest cechą jednoczynnikową, a nie grupą zjawiska), a możesz chcieć wyodrębnić mniej czynników lub alternatywnie użyć skośnych wyników jako źródła partii do wyodrębnienia tak zwanych czynników drugiego rzędu.


1 Thurstone przedstawił pięć idealnych warunków o prostej strukturze. Trzy najważniejsze to: (1) każda zmienna musi mieć co najmniej jedno obciążenie bliskie zeru; (2) każdy czynnik musi mieć ładunki bliskie zeru dla co najmniej m zmiennych ( m to liczba czynników); (3) dla każdej pary czynników istnieje co najmniej m zmiennych z ładunkami bliskimi zera dla jednego z nich i wystarczająco daleko od zera dla drugiego. W związku z tym dla każdej pary czynników ich wykres ładowania powinien wyglądać idealnie:

wprowadź opis zdjęcia tutaj

Dotyczy to wyłącznie eksploracyjnego FA, podczas gdy jeśli robisz i ponawiasz FA w celu opracowania kwestionariusza, ostatecznie będziesz chciał upuścić wszystkie punkty oprócz niebieskich, pod warunkiem, że masz tylko dwa czynniki. Jeśli są więcej niż dwa czynniki, chcesz, aby czerwone punkty stały się niebieskie dla niektórych wykresów ładowania innych czynników.


2

wprowadź opis zdjęcia tutaj


3 Wariancja czynnika (lub komponentu) jest sumą jego kwadratowych ładunków struktury , ponieważ są to kowariancje / korelacje między zmiennymi i czynnikami (skalowanymi w jednostce). Po skośnym obrocie czynniki mogą zostać skorelowane, a zatem ich wariancje się przecinają. W związku z tym, suma ich różnic SS w przekracza ogólny communality wyjaśniono, SS w . Jeśli chcesz policzyć po współczynniku i tylko unikalną „czystą” część jego wariancji, pomnóż wariancję przez zależności tego czynnika od innych czynników, czyli ilości znanej jako anty-obraz . Jest to odwrotność i-tego elementu przekątnegoSSA1Ri2C1. Suma „czystych” części wariancji będzie mniejsza niż ogólna wyjaśniona wspólnota.


4 Być może nie powiedzieć „1st / czynnik składnik zmieniło w rotacji w tym lub w ten sposób”, ponieważ 1st / czynnik składowy w obróconym matrycy ładunkowej jest inny czynnik / składnik niż 1 jeden w obrócony matrycy załadunku. Ta sama liczba porządkowa („1st”) wprowadza w błąd.


5 Dwie najważniejsze metody skośne to promax i oblimin . Promax to ukośne ulepszenie varimax: struktura oparta na varimax jest następnie luzowana, aby w większym stopniu spełniać „prostą strukturę”. Jest często stosowany w potwierdzającym FA. Oblimin jest bardzo elastyczny ze względu na swój parametr gamma, który ustawiony na 0 powoduje, że oblimin jest metodą kwartyminy dającą najbardziej ukośne rozwiązania. Współczynnik gamma wynoszący 1 daje najmniej ukośne rozwiązania, kowarimin, który jest jeszcze inną metodą opartą na varimax, która jest alternatywą dla promaksy. Wszystkie metody skośne mogą być wersjami bezpośrednimi (= pierwotnymi) i pośrednimi (= wtórnymi) - patrz literatura. Wszystkie obroty, zarówno ortogonalne, jak i ukośne, można wykonać za pomocą normalizacji Kaiser(zwykle) lub bez niego. Normalizacja powoduje, że wszystkie zmienne są równie ważne przy rotacji.


Kilka wątków do dalszego czytania:

Czy może istnieć powód, aby w ogóle nie zmieniać czynników?

Którą macierz interpretować po skośnym obrocie - wzór lub struktura?

Co oznaczają nazwy technik rotacji czynników (varimax itp.)?

Czy PCA z obróconymi komponentami jest nadal PCA, czy też jest analizą czynnikową?

ttnphns
źródło
1
+1. Ponieważ widziałem to pytanie, miałem nadzieję, że udzielisz odpowiedzi. Nawiasem mówiąc, byłem zaskoczony, że takie pytanie nie zostało tu wcześniej zadane (przynajmniej nie w tak jasnej formie).
ameba mówi Przywróć Monikę
+1. Dziękuję za odpowiedź! 1) Rozumiem analizę czynnikową i PCA osobno, ale co rozumiesz przez „PCA jako technika analityczna czynnikowa”? PCA i FA to 2 różne rzeczy do spełnienia 2 osobne cele, prawda? Czy to oznacza, że ​​gdy kiedykolwiek komponenty PCA mają złożoną strukturę, nie mogę użyć rotacji w celu uproszczenia?
GeorgeOfTheRF
2) „Varimax próbuje zmaksymalizować wariancję między obciążeniami każdego czynnika” Jaka jest zaleta maksymalizacji wariancji między obciążeniami?
GeorgeOfTheRF
Dla twojego (1) w komentarzach: Tak, dwie metody analizy są różne. Jednak ludzie czasami używają PCA do celów FA. Zobacz moją odpowiedź i cały odpowiedni wątek tam. Możesz używać rotacji czynników w PCA dokładnie tak samo i na tych samych ostrogach jak w FA. W odniesieniu do rotacji nie ma różnicy.
ttnphns
Dla twojego komentarza (2). Varimax maksymalizuje wariancję bezwzględnej wielkości obciążeń: w konsekwencji obciążenia czynnikowe dla każdego współczynnika „dzielą się” wyraźnie na (absolutnie) duże i małe. Quartimax próbuje to zrobić, aby każda zmienna była ładowana tylko przez jeden czynnik.
ttnphns