Chcę zmniejszyć wymiarowość układów wyższego rzędu i uchwycić większość kowariancji na polu najlepiej dwuwymiarowym lub jednowymiarowym. Rozumiem, że można to zrobić za pomocą analizy głównych składników, i używałem PCA w wielu scenariuszach. Jednak nigdy nie użyłem go z typami danych boolowskich i zastanawiałem się, czy warto robić PCA z tym zestawem. Udawajmy na przykład, że mam dane jakościowe lub opisowe, i przypisuję „1”, jeśli dane te są prawidłowe dla tego wymiaru, i „0”, jeśli nie jest (dane binarne). Udawaj na przykład, że próbujesz porównać Siedmiu Krasnoludków w Królewnie Śnieżce. Mamy:
Doc, Dopey, Bashful, Grumpy, Sneezy, Sleepy and Happy, i chcesz je ułożyć w oparciu o cechy, i zrobił to w następujący sposób:
Na przykład Bashful nie toleruje laktozy i nie znajduje się na liście wyróżnień A. Jest to czysto hipotetyczna matryca, a moja prawdziwa matryca będzie miała o wiele więcej kolumn opisowych. Moje pytanie brzmi: czy nadal właściwe byłoby wykonanie PCA na tej matrycy jako sposobu na znalezienie podobieństwa między jednostkami?
źródło
a means of finding the similarity between individuals
. Ale to zadanie dotyczy analizy skupień, a nie PCA.Odpowiedzi:
Chciałbym zaproponować stosunkowo nową technikę automatycznego wyodrębniania struktury z danych zmiennych zmiennych jakościowych (w tym binarnych). Metoda nazywa się CorEx od Grega van Steega z University of Southern California. Chodzi o to, aby użyć pojęcia Total Correlation w oparciu o miary entropii. Jest atrakcyjny ze względu na swoją prostotę i brak dostrajania dużej liczby hiperparametrów.
Artykuł o reprezentacjach hierarchicznych (najnowszy, bazuje na poprzednich miarach). http://arxiv.org/pdf/1410.7404.pdf
źródło
Możesz także użyć analizy wielokrotnej korespondencji (MCA), która jest rozszerzeniem analizy głównego składnika, gdy analizowane zmienne mają charakter kategoryczny zamiast ilościowy (tak jest w przypadku zmiennych binarnych). Patrz na przykład Husson i in. (2010) lub Abdi i Valentin (2007) . Doskonałym pakietem R do wykonywania MCA (i hierarchicznego grupowania na komputerach PC) jest FactoMineR .
źródło
inflation of the feature space
i dlaczego miałoby to nastąpić w PCA, a nie w MCA.inflation of the feature space
zjawisko. Wydaje się, że wchodzi w grę podczas przechodzenia z CA do MCA, ale nie jest nieodłącznym problemem PCA. Mam zamiar usunąć moją odpowiedź po przeczytaniu tego komentarza. Dzięki za uświadomienie mi tego.Jeśli myślisz o PCA jako technice eksploracyjnej, która da ci sposób na wizualizację związków między zmiennymi (i moim zdaniem jest to jedyny sposób, aby o tym pomyśleć), to tak, nie ma powodu, dla którego nie możesz umieścić w systemie binarnym zmienne. Na przykład tutaj jest biplot twoich danych
Wydaje się dość użyteczny. Na przykład widać, że Doc i Bashful są bardzo podobne; że HR jest raczej odmienne od trzech innych zmiennych; Sleepy i Sneezy są bardzo odmienne itp.
źródło