Tradycyjna (liniowa) analiza PCA i analiza czynnikowa wymaga danych na poziomie skali (przedział lub współczynnik). Często przyjmuje się, że dane ratingowe typu Likerta są na poziomie skali, ponieważ takie dane są łatwiejsze do analizy. A decyzja jest czasem uzasadniona statystycznie, szczególnie gdy liczba uporządkowanych kategorii jest większa niż 5 lub 6. (Chociaż czysto logicznie kwestia typu danych i liczby poziomów skali są różne).
A jeśli wolisz traktować politomiczną skalę Likerta jako porządkową? Czy masz dychotomiczne dane? Czy można dla nich przeprowadzić eksploracyjną analizę czynnikową lub PCA?
Istnieją obecnie trzy główne podejścia do wykonywania FA (w tym PCA jako szczególnego przypadku) na kategorycznych zmiennych porządkowych lub binarnych (przeczytaj także to konto o przypadku danych binarnych i to, co można zrobić za pomocą skali porządkowej).
Optymalne podejście do skalowania (rodzina aplikacji ). Nazywany także kategorialnym PCA (CatPCA) lub nieliniowym FA. W CatPCA zmienne porządkowe są monotonicznie przekształcane („kwantyfikowane”) w ich „leżące u podstaw” wersje przedziałów w celu maksymalizacji wariancji wyjaśnionej wybraną liczbą głównych składników wyodrębnionych z tych danych przedziałów. Co sprawia, że metoda ta jest otwarta na cele (a nie teorię) i ważna jest wcześniejsza decyzja o liczbie głównych składników. Jeśli zamiast PCA potrzebna jest prawda FA, zwykłe FA liniowe można naturalnie wykonać na tych transformowanych zmiennych wyjściowych z CatPCA. W przypadku zmiennych binarnych CatPCA (niestety?) Zachowuje się jak zwykły PCA, to znaczy tak, jakby były zmiennymi ciągłymi. CatPCA akceptuje również zmienne nominalne i dowolne mieszanki typów zmiennych (ładne).
Wnioskowane podejście oparte na zmiennych . Znany również jako PCA / FA wykonywany na korelacjach tetrachorycznych (dla danych binarnych) lub polichorycznych (dla danych porządkowych). Zakłada się rozkład normalny dla podstawowej (następnie binowanej) zmiennej ciągłej dla każdej zmiennej manifestu. Następnie stosuje się klasyczny FA do analizy wyżej wymienionych korelacji. Podejście to pozwala łatwo łączyć dane przedziałowe, porządkowe i binarne. Jedną wadą tego podejścia jest to, że - przy wnioskowaniu o korelacjach - nie ma wskazówek co do wielowymiarowego rozkładu zmiennych podstawowych, - może „wyobrazić sobie” co najwyżej dwuwymiarowe rozkłady, a zatem nie opiera się na pełnych informacjach.
Podejście teorii odpowiedzi na pytanie (IRT). Czasami nazywany również logistycznym FA lub analizą ukrytych cech . Stosowany jest model bardzo zbliżony do binarnego logit (dla danych binarnych) lub proporcjonalnego logarytmu szans (dla danych porządkowych). Algorytm nie jest związany z dekompozycją macierzy korelacji, więc jest nieco oddalony od tradycyjnego FA, a mimo to jest bona fide kategorycznym FA. „Parametry dyskryminacji” ściśle odpowiadają ładunkom FA, ale „trudności” zastępują pojęcie „wyjątkowości” FA. Pewność dopasowania IRT szybko maleje wraz ze wzrostem liczby czynników, co stanowi problematyczną stronę tego podejścia. IRT jest rozszerzalny na swój sposób, aby uwzględnić zmienne interwały + zmienne binarne + porządkowe i ewentualnie nominalne.
Oceny czynnikowe w podejściach (2) i (3) są trudniejsze do oszacowania niż oceny czynnikowe w klasycznym FA lub podejściu (1). Istnieje jednak kilka metod (oczekiwane lub maksymalne metody aposteriori, metoda największego prawdopodobieństwa itp.).
Założenia modelu analizy czynnikowej są zasadniczo takie same w trzech podejściach, jak w tradycyjnym FA. Podejście (1) jest dostępne w R, SPSS, SAS (moim zdaniem). Podejścia (2) i (3) są implementowane głównie w specjalistycznych pakietach zmiennych ukrytych - Mplus, LISREL, EQS.
Podejście wielomianowe. To nie zostało jeszcze w pełni opracowane. Główne składniki można modelować jako wielomianowe kombinacje zmiennych ( użycie wielomianów jest popularnym sposobem modelowania efektów nieliniowych regresorów porządkowych.). Również obserwowane kategorie można z kolei modelować jako dyskretne przejawy wielomianowych kombinacji czynników utajonych.
Istnieje kwitnąca dziedzina nieliniowych technik redukcji wymiarowości; niektóre z nich można zastosować lub zaadaptować do pracy z danymi kategorialnymi (szczególnie binarnymi lub po binaryzacji w wysokowymiarowy rzadki zestaw danych).
Wykonywanie klasycznych (liniowych) FA / PCA na korelacjach rang lub innych powiązaniach odpowiednich dla danych kategorycznych (Spearman / Kendall / Somer's itp.). W przypadku danych porządkowych jest to podejście czysto heurystyczne, pozbawione podstaw teoretycznych i w ogóle nie zalecane. W przypadku danych binarnych korelacje tau-b Spearmana rho i Kendalla oraz asocjacja Phi są równe korelacji Pearsona r, dlatego używanie ich jest niczym innym jak robieniem zwykłej liniowej FA / PCA na danych binarnych (niektóre z nich tutaj ). Możliwe jest także (choć nie bezdyskusyjnie) przeprowadzenie analizy na przeskalowanym jego aktualnym natężeniu.r
Spójrz także na to , to , to , to , to , to , to , to .