W przypadku funkcji boolowskich (tj. Kategorialnych z dwiema klasami) dobrą alternatywą do korzystania z PCA jest użycie analizy wielokrotnej korespondencji (MCA), która jest po prostu rozszerzeniem PCA na zmienne kategoryczne (patrz pokrewny wątek ). Aby zapoznać się z podstawowymi informacjami na temat MCA, artykuły są Husson i in. (2010) lub Abdi i Valentin (2007) . Doskonałym pakietem R do wykonywania MCA jest FactoMineR . Zapewnia narzędzia do kreślenia dwuwymiarowych map obciążeń obserwacji na głównych komponentach, co jest bardzo wnikliwe.
Poniżej znajdują się dwa przykłady map z jednego z moich wcześniejszych projektów badawczych (narysowanych za pomocą ggplot2). Miałem tylko około 60 obserwacji i dało to dobre wyniki. Pierwsza mapa reprezentuje obserwacje w przestrzeni PC1-PC2, druga mapa w przestrzeni PC3-PC4 ... Zmienne są również reprezentowane na mapie, co pomaga w interpretacji znaczenia wymiarów. Zebranie wglądu w kilka z tych map może dać całkiem niezły obraz tego, co dzieje się w twoich danych.
Na powyższej stronie internetowej znajdziesz również informacje na temat nowej procedury HCPC, która oznacza Hierarchiczne grupowanie głównych składników i która może być dla Ciebie interesująca. Zasadniczo ta metoda działa w następujący sposób:
- wykonać MCA,
- zachowaj pierwszy k wymiary (gdzie k < p, z poryginalna liczba funkcji). Ten krok jest przydatny, ponieważ usuwa pewne zakłócenia, a zatem umożliwia bardziej stabilne grupowanie,
- wykonać aglomeracyjne (oddolne) hierarchiczne grupowanie w przestrzeni zachowanych komputerów. Ponieważ używasz współrzędnych rzutów obserwacji w przestrzeni PC (liczby rzeczywiste), możesz użyć odległości euklidesowej, z kryterium Warda dla połączenia (minimalny wzrost wariancji wewnątrz gromady). Możesz wyciąć dendogram na wybranej wysokości lub pozwolić, aby funkcja R wycięła, jeśli opierasz się na heurystyce,
- (opcjonalnie) ustabilizuj klastry, wykonując grupowanie w kształcie litery K. Początkowa konfiguracja jest podana przez centra klastrów znalezione w poprzednim kroku.
Następnie masz wiele sposobów na badanie klastrów (najbardziej reprezentatywne cechy, najbardziej reprezentatywne osoby itp.)