Mam zestaw danych z dużą liczbą odpowiedzi Tak / Nie. Czy mogę korzystać z głównych składników (PCA) lub innych analiz redukcji danych (takich jak analiza czynnikowa) dla tego rodzaju danych? Proszę doradzić, jak mam to zrobić za pomocą SPSS.
30
Odpowiedzi:
Pytanie o dychotomiczne lub binarne zmienne w analizie PCA lub czynnikowej jest wieczne. Istnieją opinie polarne od „jest nielegalne” do „w porządku”, poprzez coś w rodzaju „możesz to zrobić, ale dostaniesz zbyt wiele czynników”. Moja obecna opinia jest następująca. Po pierwsze, uważam, że obserwowana zmienna binarna jest dyskretna i niewłaściwe jest traktowanie jej w jakikolwiek sposób jako ciągłej. Czy ta zmienna dyskretna może stanowić czynnik lub główny składnik?
Analiza czynnikowa (FA). Czynnikiem z definicji jest ciągłe utajenie, które ładuje obserwowalne zmienne ( 1 , 2 ). W konsekwencji, ta ostatnia nie może być ciągła (lub interwał, mówiąc bardziej praktycznie), gdy jest wystarczająco obciążona czynnikowo. Również FA, ze względu na swój regresyjny charakter liniowy, zakłada, że reszta - nieobciążona - część, zwana uniqness, jest również ciągła, a zatem okazuje się, że obserwowalne zmienne powinny być ciągłe nawet przy niewielkim obciążeniu. W związku z tym zmienne binarne nie mogą stanowić prawa w FA. Istnieją jednak co najmniej dwa sposoby: (A) Załóż dychotomie, ponieważ zszorstkowana kontynuacja podstawowych zmiennych i wykonuj FA z korelacjami tetrachorycznymi - a nie Pearsona -; (B) Załóżmy, że czynnik ładuje zmienną dychotomiczną nie liniowo, ale logistycznie i wykonuje analizę cech ukrytych (zwaną teorią odpowiedzi na pytanie) zamiast liniowej FA. Czytaj dalej .
Analiza głównych składników (PCA). Chociaż PCA ma wiele wspólnego z FA, nie jest modelowaniem, lecz jedynie metodą podsumowującą. Komponenty nie ładują zmiennych w tym samym sensie koncepcyjnym, co czynniki ładują zmienne. W PCA komponenty ładują zmienne, a zmienne ładują komponenty. Ta symetria wynika z tego, że PCA per se jest jedynie rotacją osi zmiennych w przestrzeni. Zmienne binarne nie zapewnią prawdziwej ciągłości komponentu samodzielnie - ponieważ nie są one ciągłe, ale pseudociągłość może być zapewniona przez kąt obrotu PCA, który może się pojawić. Zatem w PCA, w przeciwieństwie do FA, można uzyskać pozornie ciągłe wymiary (osie obrócone) z czysto binarnymi zmiennymi (osie nieobrócone) - kąt jest przyczyną ciągłości1
(0,0)
Niektóre powiązane pytania dotyczące FA lub PCA danych binarnych: 1 , 2 , 3 , 4 , 5 , 6 . Odpowiedzi tam potencjalnie mogą wyrażać opinie inne niż moje.
Przykład danych binarnych (tylko prosty przypadek dwóch zmiennych):
Wykresy rozrzutu poniżej pokazują punkty danych nieco wstrząśnięte (w celu renderowania częstotliwości) i pokazują główne osie składowe jako linie ukośne niosące na nich oceny składowe [te oceny, według mojego twierdzenia, są pseudo ciągłymi wartościami]. Lewy wykres na każdym zdjęciu pokazuje PCA na podstawie „surowych” odchyleń od źródła, podczas gdy prawy wykres pokazuje PCA na podstawie skalowanych (przekątna = jednostka) odchyleń od niego.
1) Tradycyjne PCA umieszcza
(0,0)
pochodzenie w średniej danych (centroid). W przypadku danych binarnych średnia nie jest możliwą wartością danych. Jest to jednak fizyczny środek ciężkości. PCA maksymalizuje zmienność w tym zakresie.(Nie zapominaj również, że w binarnej zmiennej zmiennej i wariancji są ściśle ze sobą powiązane, są one, że tak powiem, „jedna rzecz”. Standaryzacja / skalowanie zmiennych binarnych, to znaczy wykonywanie PCA na podstawie korelacji, a nie kowariancji, w obecna instancja będzie oznaczać, że utrudnisz bardziej zrównoważone zmienne - mające większą wariancję - aby wpływać na PCA w większym stopniu niż zmienne bardziej wypaczone.)
2) Możesz wykonać PCA w danych niecentrowanych, tzn. Pozwolić źródłu
(0,0)
przejść do lokalizacji(0,0)
. Jest to PCA naX'X/n
macierzy MSCP ( ) lub macierzy podobieństwa cosinus. PCA maksymalizuje wypukłość ze stanu bez atrybutu.3) Możesz pozwolić początkowi
(0,0)
leżeć w punkcie danych najmniejszej sumy odległości Manhattanu od niego do wszystkich innych punktów danych - medoidy L1. Medoid jest ogólnie rozumiany jako najbardziej „reprezentatywny” lub „typowy” punkt danych. Dlatego PCA zmaksymalizuje nietypowość (oprócz częstotliwości). W naszych danych medoid L1 spadł na(1,0)
oryginalne współrzędne.4) Lub umieść początek
(0,0)
na współrzędnych danych, w których częstotliwość jest najwyższa - tryb wielowymiarowy. Jest to(1,1)
komórka danych w naszym przykładzie. PCA zmaksymalizuje (kieruje się) trybami juniorów.5) W treści odpowiedzi wspomniano, że korelacje tetrachoryczne to ważna kwestia do przeprowadzenia analizy czynnikowej dla zmiennych binarnych. To samo można powiedzieć o PCA: możesz robić PCA w oparciu o korelacje tetrachoryczne . Oznacza to jednak, że zakładasz podstawową zmienną ciągłą w zmiennej binarnej.
źródło