Przeprowadzanie analizy głównych składników lub analizy czynnikowej na danych binarnych

30

Mam zestaw danych z dużą liczbą odpowiedzi Tak / Nie. Czy mogę korzystać z głównych składników (PCA) lub innych analiz redukcji danych (takich jak analiza czynnikowa) dla tego rodzaju danych? Proszę doradzić, jak mam to zrobić za pomocą SPSS.

Cathy
źródło
1
Co skłoniło Cię do rozważenia PCA w przeciwieństwie do analizy dyskryminacyjnej?
Chris Simokat
1
Zobacz także: stats.stackexchange.com/a/186026/3277
ttnphns

Odpowiedzi:

39

Pytanie o dychotomiczne lub binarne zmienne w analizie PCA lub czynnikowej jest wieczne. Istnieją opinie polarne od „jest nielegalne” do „w porządku”, poprzez coś w rodzaju „możesz to zrobić, ale dostaniesz zbyt wiele czynników”. Moja obecna opinia jest następująca. Po pierwsze, uważam, że obserwowana zmienna binarna jest dyskretna i niewłaściwe jest traktowanie jej w jakikolwiek sposób jako ciągłej. Czy ta zmienna dyskretna może stanowić czynnik lub główny składnik?

  • Analiza czynnikowa (FA). Czynnikiem z definicji jest ciągłe utajenie, które ładuje obserwowalne zmienne ( 1 , 2 ). W konsekwencji, ta ostatnia nie może być ciągła (lub interwał, mówiąc bardziej praktycznie), gdy jest wystarczająco obciążona czynnikowo. Również FA, ze względu na swój regresyjny charakter liniowy, zakłada, że ​​reszta - nieobciążona - część, zwana uniqness, jest również ciągła, a zatem okazuje się, że obserwowalne zmienne powinny być ciągłe nawet przy niewielkim obciążeniu. W związku z tym zmienne binarne nie mogą stanowić prawa w FA. Istnieją jednak co najmniej dwa sposoby: (A) Załóż dychotomie, ponieważ zszorstkowana kontynuacja podstawowych zmiennych i wykonuj FA z korelacjami tetrachorycznymi - a nie Pearsona -; (B) Załóżmy, że czynnik ładuje zmienną dychotomiczną nie liniowo, ale logistycznie i wykonuje analizę cech ukrytych (zwaną teorią odpowiedzi na pytanie) zamiast liniowej FA. Czytaj dalej .

  • Analiza głównych składników (PCA). Chociaż PCA ma wiele wspólnego z FA, nie jest modelowaniem, lecz jedynie metodą podsumowującą. Komponenty nie ładują zmiennych w tym samym sensie koncepcyjnym, co czynniki ładują zmienne. W PCA komponenty ładują zmienne, a zmienne ładują komponenty. Ta symetria wynika z tego, że PCA per se jest jedynie rotacją osi zmiennych w przestrzeni. Zmienne binarne nie zapewnią prawdziwej ciągłości komponentu samodzielnie - ponieważ nie są one ciągłe, ale pseudociągłość może być zapewniona przez kąt obrotu PCA, który może się pojawić. Zatem w PCA, w przeciwieństwie do FA, można uzyskać pozornie ciągłe wymiary (osie obrócone) z czysto binarnymi zmiennymi (osie nieobrócone) - kąt jest przyczyną ciągłości1

    (0,0)2)

Niektóre powiązane pytania dotyczące FA lub PCA danych binarnych: 1 , 2 , 3 , 4 , 5 , 6 . Odpowiedzi tam potencjalnie mogą wyrażać opinie inne niż moje.


1byty poziomu - dla zmiennych jako punktów lub kategorii jako punktów - ich współrzędne w przestrzeni osi głównych są rzeczywiście uzasadnionymi wartościami skalowania. Ale nie w przypadku punktów danych (przypadków danych) danych binarnych - ich „wyniki” są pseudo ciągłymi wartościami: nie są miarami wewnętrznymi, a jedynie niektórymi współrzędnymi nakładki.


2)1

Przykład danych binarnych (tylko prosty przypadek dwóch zmiennych):

wprowadź opis zdjęcia tutaj

Wykresy rozrzutu poniżej pokazują punkty danych nieco wstrząśnięte (w celu renderowania częstotliwości) i pokazują główne osie składowe jako linie ukośne niosące na nich oceny składowe [te oceny, według mojego twierdzenia, są pseudo ciągłymi wartościami]. Lewy wykres na każdym zdjęciu pokazuje PCA na podstawie „surowych” odchyleń od źródła, podczas gdy prawy wykres pokazuje PCA na podstawie skalowanych (przekątna = jednostka) odchyleń od niego.

1) Tradycyjne PCA umieszcza (0,0)pochodzenie w średniej danych (centroid). W przypadku danych binarnych średnia nie jest możliwą wartością danych. Jest to jednak fizyczny środek ciężkości. PCA maksymalizuje zmienność w tym zakresie.

(Nie zapominaj również, że w binarnej zmiennej zmiennej i wariancji są ściśle ze sobą powiązane, są one, że tak powiem, „jedna rzecz”. Standaryzacja / skalowanie zmiennych binarnych, to znaczy wykonywanie PCA na podstawie korelacji, a nie kowariancji, w obecna instancja będzie oznaczać, że utrudnisz bardziej zrównoważone zmienne - mające większą wariancję - aby wpływać na PCA w większym stopniu niż zmienne bardziej wypaczone.)

wprowadź opis zdjęcia tutaj

2) Możesz wykonać PCA w danych niecentrowanych, tzn. Pozwolić źródłu (0,0)przejść do lokalizacji (0,0). Jest to PCA na X'X/nmacierzy MSCP ( ) lub macierzy podobieństwa cosinus. PCA maksymalizuje wypukłość ze stanu bez atrybutu.

wprowadź opis zdjęcia tutaj

3) Możesz pozwolić początkowi (0,0)leżeć w punkcie danych najmniejszej sumy odległości Manhattanu od niego do wszystkich innych punktów danych - medoidy L1. Medoid jest ogólnie rozumiany jako najbardziej „reprezentatywny” lub „typowy” punkt danych. Dlatego PCA zmaksymalizuje nietypowość (oprócz częstotliwości). W naszych danych medoid L1 spadł na (1,0)oryginalne współrzędne.

wprowadź opis zdjęcia tutaj

4) Lub umieść początek (0,0)na współrzędnych danych, w których częstotliwość jest najwyższa - tryb wielowymiarowy. Jest to (1,1)komórka danych w naszym przykładzie. PCA zmaksymalizuje (kieruje się) trybami juniorów.

wprowadź opis zdjęcia tutaj

5) W treści odpowiedzi wspomniano, że korelacje tetrachoryczne to ważna kwestia do przeprowadzenia analizy czynnikowej dla zmiennych binarnych. To samo można powiedzieć o PCA: możesz robić PCA w oparciu o korelacje tetrachoryczne . Oznacza to jednak, że zakładasz podstawową zmienną ciągłą w zmiennej binarnej.

ttnphns
źródło
2
O związku między FA na elementach binarnych a modelami IRT (1- i 2-PL), oto dwa artykuły, które mogą być interesujące: Takane i de Leeuw, O związku między teorią odpowiedzi na przedmiot a analizą czynnikową zmiennych dyskretnych , Psychometrika ( 1987) 52 (3): 393; oraz nowszy, Kamata & Bauer, A Note on the Relation Between Factor Analytic and Item Response Theory Models , SEM (2008) 15: 136.
chl