Zastanawiam się, czy możliwe jest wykonanie w obrębie R grupowania danych o mieszanych zmiennych danych. Innymi słowy, mam zestaw danych zawierający zarówno zmienne liczbowe, jak i jakościowe, i znajduję najlepszy sposób na ich grupowanie. W SPSS użyłbym dwustopniowego klastra. Zastanawiam się, czy w R mogę znaleźć podobne techniki. Powiedziano mi o pakiecie poLCA, ale nie jestem pewien ...
r
clustering
mixed-type-data
Giorgio Spedicato
źródło
źródło
Odpowiedzi:
Może się to spóźnić, ale spróbuj klaR ( http://cran.r-project.org/web/packages/klaR/index.html )
Wykorzystuje niehierarchiczny algorytm trybów k, który opiera się na prostym dopasowaniu jako funkcji odległości, więc odległość δ między zmienną m dwóch punktów danych i y jest dana przezx y
Pakiet ma wadę, tzn. Jeśli dwa punkty danych mają tę samą odległość od centrum skupień, pierwszy w danych jest wybierany w przeciwieństwie do losowego punktu, ale można łatwo zmodyfikować bit w kodzie.
Aby uwzględnić klastrowanie zmiennych mieszanych, należy przejść do kodu i zmodyfikować funkcję odległości w celu zidentyfikowania trybów i zmiennych numerycznych i nienumerycznych.
źródło
Innym atrakcyjnym sposobem obsługi zmiennych typów mieszanych jest użycie macierzy proxy / podobieństwa z Random Forests: http://cogns.northwestern.edu/cbmg/LiawAndWiener2002.pdf . Ułatwia to jednolity sposób równego traktowania wszystkich zmiennych (należy jednak pamiętać o problemie z selekcją zmiennych). Z drugiej strony tak naprawdę nie ma złotego uniwersalnego sposobu określania odległości dla zmiennych typów mieszanych. Wszystko zależy od kontekstów aplikacji.
źródło
Możesz użyć wielu analiz korespondencji, aby utworzyć ciągłe wymiary ze zmiennych kategorialnych, a następnie użyć ich ze zmiennymi numerycznymi w drugim kroku.
źródło
Z pewnością możesz. Tworząc zmienne kategoryczne sztucznie numeryczne. Lub używając klastrowania opartego na macierzy odległości (fpc prawdopodobnie może to zrobić). Pytanie, na które powinieneś najpierw odpowiedzieć, brzmi: czy to naprawdę ma sens?
źródło
znaki wielostanowiskowe (nominalne lub porządkowe): 1 dla równości, 0 innych (równoważne prostemu współczynnikowi dopasowania)
źródło
Jeśli możliwe wartości zmiennych kategorialnych nie są zbyt liczne, możesz pomyśleć o utworzeniu zmiennych binarnych z tych wartości. Możesz traktować te zmienne binarne jak zmienne numeryczne i uruchamiać klastrowanie. Tak zrobiłem dla mojego projektu.
źródło
Klaster k-prototypów może być bardziej odpowiedni tutaj. Łączy tryby K i K-średnie i jest w stanie grupować mieszane dane liczbowe / jakościowe. Dla R użyj pakietu „clustMixType”.
https://cran.r-project.org/web/packages/clustMixType/clustMixType.pdf
źródło
VarSelLCM
oferty pakietoweO CRAN i opisany więcej w formie papierowej .
Zaletą niektórych wcześniejszych metod jest to, że oferuje pomoc w wyborze liczby klastrów i obsługuje brakujące dane. Ładna, błyszcząca aplikacja również nie jest niezadowolona.
źródło