Metody obliczania wyników czynnikowych i jaka jest macierz „współczynnika wyników” w PCA lub analizie czynnikowej?

20

Jak rozumiem, w PCA opartym na korelacjach otrzymujemy ładunki czynnikowe (= główny składnik w tym przypadku), które są niczym innym jak korelacjami między zmiennymi i czynnikami. Teraz, gdy muszę wygenerować wyniki czynnikowe w SPSS, mogę bezpośrednio uzyskać wyniki czynnikowe każdego respondenta dla każdego czynnika. Zauważyłem również, że jeśli pomnożę „ macierz współczynnika oceny składowej ” (wytworzonej przez SPSS) ze znormalizowanymi zmiennymi oryginalnymi, otrzymam takie same oceny czynników, jak uzyskane z SPSS.

Czy ktoś może mi pomóc w zrozumieniu, w jaki sposób obliczana jest „macierz współczynnika wyniku elementu” lub „macierz współczynnika wyniku czynnika” - za pomocą którego mogę obliczyć wyniki czynników lub składników? Czym różnią się różne metody obliczania współczynników obliczeniowych na tej macierzy?

Kartikeya Pandey
źródło
1
Formuła jest podana na przykład tutaj stats.stackexchange.com/a/92512/3277 .
ttnphns,
@amoeba, jeśli robi się PCA, słowo „współczynnik punktowy” oznacza „wynik komponentowy”, są one równoważne. Zobacz dolną część połączonej odpowiedzi powyżej - w modelu PCA formuła najczęściej stosowana do obliczania wyników czynnikowych w FA daje następnie dokładne (standardowe) wyniki składowe.
ttnphns,
2
SPSS wyświetla Ci się macierz współczynników , a dodatkowo oszczędza (znormalizowany) zdobywa jako nowych zmiennych, dołączając je do zbioru danych oryginalnych zmiennych . OP - myślę - ujednolicony a następnie zmultiplikowany, . I voila, to właśnie SPSS dołączył do zbioru danych! Pytanie OP brzmi: Wow! po „jak obliczono ?”. X X X B BBXXXBB
ttnphns,
@ttnphs poprawnie rozumiesz, co miałem na myśli. Ale moim problemem jest to, że zakładam, że jeśli używam XB do przewidywania współczynnika socre dla każdej obserwacji, to B powinno być obciążeniem czynnikowym, ale w SPSS jest to „macierz współczynnika wyniku składowego”, a nie „ładunek czynnika rotowanego”, dlatego Chciałem zrozumieć związek lub różnicę między „obciążeniem z rotowanym współczynnikiem” a „macierzą współczynnika oceny składowej”.
Kartikeya Pandey,
Tak więc, jak zrozumiałem z linku, chcę tylko raz się upewnić, czy A jest ładunkiem obróconym, to (Inverse (A)) „jest„ macierzą współczynnika wyniku komponentu ”, którą można również obliczyć za pomocą wzoru A⋅diag. Inverse ((wartości własne))
Kartikeya Pandey,

Odpowiedzi:

25

Metody obliczania wyników czynnikowych / składowych

Po serii komentarzy postanowiłem w końcu udzielić odpowiedzi (na podstawie komentarzy i nie tylko). Chodzi o obliczanie wyników składowych w PCA i wyników czynnikowych w analizie czynnikowej.

/ Czynnik wyniki składowe są dane przez F = X B , w których X są badane zmienne ( skupione czy analiza PCA / czynnik oparto na kowariancji lub Z-znormalizowane gdyby była oparta na korelacji). B jest matrycą współczynnika / współczynnika wyniku (lub wagi) . Jak oszacować te wagi?F^=XBXB

Notacja

-matryca korelacji lub kowariancji zmiennych (pozycji), w zależności od tego, który z analizowanych czynników / PCA.Rp x p

-macierz obciążeń czynnikowych / składowych. Mogą to być ładunki po ekstrakcji (często również oznaczone A ), po których utajenia są ortogonalne lub praktycznie tak, lub ładunki po rotacji, ortogonalne lub ukośne. Jeśli obrót byłukośny, musi to byćładunekwzoru.Pp x mA

-macierz korelacji między czynnikami / składnikami po ich (obciążeniach) skośnym obrocie. Jeśli nie wykonano obrotu ani obrotu ortogonalnego, jest tomacierztożsamości.Cm x m

-zredukowana macierz korelacji odtworzonych kowariancji /,=PCP"(=PP'o ortogonalnych roztworów), zawiera communalities na przekątnej.R^p x p=PCP=PP

-diagonalna macierz unikatowości (unikalność + wspólnotowość = element diagonalny R ). Używam tutaj „2” jako indeksu dolnego zamiast indeksu górnego ( U 2 ) dla ułatwienia czytelności w formułach.U2p x pRU2

-pełna macierz kowariancji odtworzonych korelacji /, = R + U 2 .Rp x p=R^+U2

- pseudoinwersja macierzy M ; jeżeli M jest pełnym rzędem, M + = ( M M ) - 1 M .M+MMM+=(MM)1M

- dla niektórych kwadratowy symetrycznej macierzy M jego podniesienie do p O W E r wynosi eigendecomposing H K H ' = K , podnoszenie wartości własnych do zasilania i tworzenia tylna M s o w e R = H K p o w e r H .MpowerMpowerHKH=MMpower=HKpowerH

Zgrubna metoda obliczania wyników czynnik / składnik

To popularne / tradycyjne podejście, czasami nazywane Cattell's, polega po prostu na uśrednieniu (lub zsumowaniu) wartości przedmiotów, które są ładowane według tego samego współczynnika. Matematycznie, wynosi ona ustawienie wagi w obliczenia punktów F, = X B . Istnieją trzy główne wersje podejścia: 1) Używaj obciążeń takimi, jakie są; 2) Rozdziel je na części (1 = załadowany, 0 = nie załadowany); 3) Używać obciążeń takimi, jakie są, ale obciążeń zerowych mniejszych niż pewien próg.B=PF^=XB

Często przy takim podejściu, gdy przedmioty są w tej samej jednostce skali, wartości są używane po prostu surowe; choć aby nie złamać logiki faktoryzacji, lepiej użyć X, ponieważ weszła ona do faktoringu - znormalizowana (= analiza korelacji) lub wyśrodkowana (= analiza kowariancji).XX

Główną wadą grubej metody liczenia wyników czynnik / składnik jest moim zdaniem to, że nie uwzględnia ona korelacji między załadowanymi elementami. Jeśli przedmioty obciążone czynnikiem ściśle ze sobą korelują, a jeden jest obciążony silniej niż drugi, ten drugi można rozsądnie uznać za młodszy duplikat, a jego wagę można zmniejszyć. Udoskonalają to metody, ale metoda zgrubna nie.

Zgrubne wyniki są oczywiście łatwe do obliczenia, ponieważ nie jest wymagana inwersja macierzy. Zaletą metody zgrubnej (wyjaśniającej, dlaczego jest nadal szeroko stosowana pomimo dostępności komputerów) jest to, że daje wyniki, które są bardziej stabilne od próbki do próbki, gdy próbkowanie nie jest idealne (w sensie reprezentatywności i wielkości) lub elementy dla analizy nie zostały dobrze wybrane. Cytując jedną pracę: „Metoda punktacji może być najbardziej pożądana, gdy skale używane do gromadzenia oryginalnych danych są niesprawdzone i mają charakter eksploracyjny, przy niewielkim lub żadnym braku wiarygodności lub wiarygodności”. Również , że nie wymaga, aby zrozumieć „czynnik” niekoniecznie jako jednoczynnikowej utajonego Essense, jako model analizy czynnik wymaga ( patrz , patrz). Można na przykład pojąć czynnik jako zbiór zjawisk - wówczas sumowanie wartości pozycji jest rozsądne.

Udoskonalone metody obliczania wyników czynnik / składnik

Metody te są tym, co robią pakiety analityczne. Oszacowują różnymi metodami. Podczas gdy obciążenia A lub P są współczynnikami kombinacji liniowych do przewidywania zmiennych według czynników / składników, B są współczynnikami do obliczania wyników czynników / składników na podstawie zmiennych.BAPB

Wyniki obliczone za pomocą są skalowane: mają wariancje równe lub zbliżone do 1 (znormalizowane lub prawie znormalizowane) - nie są to prawdziwe wariancje czynnikowe (które są równe sumie obciążeń struktury kwadratowej, patrz przypis 3 tutaj ). Tak więc, gdy musisz podać wyniki czynnikowe z wariancją rzeczywistego czynnika, pomnóż wyniki (po ich standaryzacji do st. Odchylenie 1) przez pierwiastek kwadratowy tej wariancji.B

Możesz zachować z analizy wykonanej, aby móc obliczyć wyniki dla nowych nadchodzących obserwacji X . Ponadto B można stosować do ważenia przedmiotów stanowiących skalę kwestionariusza, gdy skala jest opracowywana lub zatwierdzana przez analizę czynnikową. (Kwadratowe) współczynniki B można interpretować jako udział elementów w czynnikach. Współczynniki mogą być znormalizowane, podobnie jak współczynnik regresji jest znormalizowany β = b σ i t e mBXBB (gdzieσfactor=1), aby porównać wkład przedmiotów o różnych wariancjach.β=bσitemσfactorσfactor=1

Zobacz przykład pokazujący obliczenia wykonane w PCA i FA, w tym obliczenia wyników z macierzy współczynników wyników.

Geometryczne wyjaśnienie obciążeniach „s (jak prostopadłych współrzędnych) oraz współczynniki wynik b ” s (pochylanie współrzędne) w ustawieniach PCA prezentowana na dwóch pierwszych zdjęciach tutaj .ab

Teraz do wyrafinowanych metod.

Metody

Obliczanie w PCAB

Gdy obciążenia składników są wydobywane, ale nie obracane, , gdzie L jest macierzą diagonalną złożoną z wartości własnych; ta formuła oznacza po prostu podzielenie każdej kolumny A przez odpowiednią wartość własną - wariancję komponentu.B=AL1LmA

Równoważnie . Ta formuła obowiązuje również dla komponentów (obciążeń) obróconych, ortogonalnie (takich jak varimax) lub ukośnie.B=(P+)

Niektóre metody stosowane w analizie czynnikowej (patrz poniżej), jeśli zastosowane w PCA, zwracają ten sam wynik.

Obliczone oceny składników mają wariancje 1 i są to prawdziwie znormalizowane wartości składników .

To, co w analizie danych statystycznych nazywa się macierzą współczynnika głównego , a jeśli jest obliczane z kompletnej, a nie obróconej macierzy obciążeniowej, w literaturze dotyczącej uczenia maszynowego często określa się matrycę wybielającą (na bazie PCA) , a znormalizowane główne składniki są rozpoznane jako „wybielone” dane.Bp x p

Obliczanie we wspólnej analizie czynnikowejB

W przeciwieństwie do wyników składowych, czynnik wynikinigdy dokładny ; są jedynie przybliżeniami nieznanych prawdziwych wartości czynników. Wynika to z faktu, że nie znamy wartości wspólnot lub unikatowości na poziomie przypadku, ponieważ czynniki, w przeciwieństwie do składników, są zmiennymi zewnętrznymi odrębnymi od przejawnych i mają swój, nieznany nam rozkład. Co jest przyczyną nieokreśloności tego współczynnika . Należy zauważyć, że problem nieokreśloności jest logicznie niezależny od jakości rozwiązania czynnikowego: ile czynnik jest prawdziwy (odpowiada utajeniu, które generuje dane w populacji) to inna kwestia niż to, ile oceny danego czynnika są prawdziwe (dokładne szacunki wyodrębnionego czynnika).F

Ponieważ oceny czynników są przybliżone, istnieją alternatywne metody ich obliczania i konkurowania.

B=R1PC=R1SS=PCA=P=S1

B

SSregr(n1)2SSregr(n1)

RRRRm

R^RB=(P+)C

X^=FPF=(P+)X^XX^FF^X

Należy pamiętać, że ta metoda nie podaje wyników składowych PCA dla wyników czynnikowych, ponieważ stosowane ładunki nie są ładunkami PCA, ale analizą czynnikową ”; tylko że podejście obliczeniowe do wyników odzwierciedla to, co w PCA.

B=(PU21P)1PU21p

B=(PU21RU21P)1/2PU21

B=R1/2GHC1/2GHsvd(R1/2U21PC1/2)=GΔHmG

GHsvd(R1/2PC3/2)=GΔHmG

Metoda Krijnena i in . Ta metoda jest uogólnieniem, które uwzględnia dwie poprzednie dwie za pomocą jednej formuły. Prawdopodobnie nie dodaje żadnych nowych ani ważnych nowych funkcji, więc nie rozważam tego.

Porównanie wyrafinowanych metod .

  • Metoda regresji maksymalizuje korelację między wynikami czynników a nieznanymi prawdziwymi wartościami tego czynnika (tj. Maksymalizuje trafność statystyczną ), ale wyniki są nieco tendencyjne i nieco niepoprawnie korelują między czynnikami (np. Korelują nawet, gdy czynniki w rozwiązaniu są ortogonalne). Są to szacunki metodą najmniejszych kwadratów.

  • Metoda PCA jest również metodą najmniejszych kwadratów, ale z mniejszą trafnością statystyczną. Są szybsze do obliczenia; obecnie nie są często używane w analizie czynnikowej ze względu na komputery. (W PCA ta metoda jest natywna i optymalna).

  • X

  • Wyniki Andersona-Rubina / McDonalda-Andersona-Rubina i Greena są nazywane zachowaniem korelacji, ponieważ są obliczane w celu dokładnej korelacji z wynikami czynników innych czynników. Korelacje między wynikami czynników są równe korelacjom między czynnikami w rozwiązaniu (tak więc na przykład w rozwiązaniu ortogonalnym wyniki będą całkowicie nieskorelowane). Ale wyniki są nieco stronnicze, a ich ważność może być skromna.

Sprawdź również tę tabelę:

wprowadź opis zdjęcia tutaj

[Uwaga dla użytkowników SPSS: jeśli wykonujesz PCA (metoda ekstrakcji „głównych składników”), ale wyniki współczynnika żądania inne niż metoda „regresji”, program zignoruje żądanie i zamiast tego obliczy wyniki „regresji” (które są dokładne wyniki składowe).]

Bibliografia

  1. Grice, James W. Computing and Evaluating Factor Scores // Psychological Methods 2001, tom. 6, nr 4, 430–450.

  2. DiStefano, Christine i in. Zrozumienie i wykorzystanie wyników czynnikowych // Praktyczna ocena, badania i ocena, tom 14, nr 20

  3. ten Berge, Jos MFet al. Niektóre nowe wyniki dotyczące metod prognozowania wyników czynników zachowujących korelację // Algebra liniowa i jej zastosowania 289 (1999) 311-318.

  4. Mulaik, Stanley A. Fundamenty analizy czynnikowej, wydanie drugie, 2009

  5. Harman, Harry H. Modern Factor Analysis, 3. wydanie, 1976

  6. Neudecker, Heinz. O najlepszej bezstronnej prognozie zachowującej kowariancję wyników czynnikowych // SORT 28 (1) styczeń-czerwiec 2004, 27-36


1F=b1X1+b2X2s1s2F

s1=b1r11+b2r12

s2=b1r12+b2r22

rXs=RbFbrs


2

wprowadź opis zdjęcia tutaj

ttnphns
źródło
3
Dobra odpowiedź, pozytywnie oceniany! Chciałem tylko powiedzieć, że jestem pod wrażeniem twojej wiedzy na temat statystyki, a zwłaszcza analizy czynników. Z przyjemnością skontaktujemy się z Tobą na LinkedIn i innych portalach społecznościowych. Nawiasem mówiąc, FYI: link do strony Twojej firmy w twoim profilu jest uszkodzony.
Aleksandr Blekh
XFAFR1A
(I+AU2A)1AU2I
@amoeba, dodałem trochę informacji do odpowiedzi w odniesieniu do twojego pierwszego komentarza. Dla twojego drugiego komentarza - przepraszam, myślę, że nie mogę na nie odpowiedzieć bez zagłębiania się w książki. Jeśli znajdziesz odpowiedź samodzielnie, uprzejmie wyjaśnij ją publiczności. :-)
ttnphns
1
Niesamowita aktualizacja @ttnphns, świetna robota. Zauważyłem, że ten wątek był oglądany 13 000 razy, musi być wysoko oceniany w niektórych popularnych wyszukiwarkach Google.
ameba mówi Przywróć Monikę
-2

Aby wykonać PCA w meteorologii, współczynniki korelacji uzyskuje się przy użyciu współczynnika korelacji Pearsona (jeśli zmienne są w różnych jednostkach, ponieważ umożliwia to standaryzację danych, dzięki czemu można je bezpośrednio porównywać bez żadnych rozbieżności ze względu na różnice wielkości / wielkości między danymi, w ten sposób współczynniki korelacji mogą po prostu porównać zakres wariancji wokół średniej, dla każdego zestawu danych i między każdym zestawem danych. W przeciwnym razie, jeśli wszystkie dane są mierzone za pomocą tej samej jednostki, można zastosować metodę kowariancji. SPSS ułatwia.

Ekta
źródło
1
Jest to całkowicie niezrozumiałe - w jaki sposób odpowiedź dotyczy pytania (tj. Obliczenia wyników składowych / czynników)?
ttnphns
Yn×p=Ep×pTZp×n