Solidna metoda klastrowa dla mieszanych danych w języku R

12

Chcę skupić mały zestaw danych (64 obserwacje 4 zmiennych interwałowych i pojedynczej zmiennej kategorialnej trzyczynnikowej). Teraz jestem całkiem nowy w analizie skupień, ale zdaję sobie sprawę, że od czasów, gdy hierarchiczne grupowanie lub k-średnie były jedynymi dostępnymi opcjami, nastąpił znaczny postęp. W szczególności wydaje się, że dostępne są nowe metody klastrowania oparte na modelach, które, jak wskazał chl , umożliwiają stosowanie „wskaźników dopasowania” do decydowania o liczbie klastrów lub klas ”.

Jednak standardowy pakiet R dla klastrowania opartego na modelach mclustnajwyraźniej nie pasuje do modeli o mieszanych typach danych. fpcModel będzie, ale ma kłopoty montażu modelu, podejrzewam, ze względu na zakaz Gaussa charakteru zmiennych ciągłych. Czy powinienem kontynuować podejście oparte na modelu? Chciałbym nadal używać R, jeśli to możliwe. Widzę, że mam kilka opcji:

  1. Konwertuj trzypoziomową zmienną kategorialną na dwie zmienne zastępcze i użyj mclust. Nie jestem pewien, czy to wpłynie na wyniki, ale jeśli nie, to moja preferowana opcja.
  2. Przekształć w jakiś sposób zmienne ciągłe i użyj fpcpakietu.
  3. Użyj innego pakietu R, którego jeszcze nie spotkałem.
  4. Utwórz macierz odmienności za pomocą miary Gowera i użyj tradycyjnych hierarchicznych lub klastrowych technik relokacji.

Czy stats.se hivemind ma tutaj jakieś sugestie?

fmark
źródło
Aby przekonwertować dane kategorialne na kod fikcyjny (jeden kodowany na gorąco), możesz użyć funkcji dummy.data.frame. jako dane wejściowe możesz podać swoje mieszane dane, a jako dane wyjściowe po prostu koduje dane kategoryczne.
Naghmeh,

Odpowiedzi:

7

Polecam używanie Gowera z późniejszym hierarchicznym grupowaniem. Grupowanie hierarchiczne pozostaje najbardziej elastyczną i odpowiednią metodą w przypadku niewielkiej liczby obiektów (np. 64). Jeśli twoja zmienna kategorialna jest nominalna, Gower przekoduje ją wewnętrznie na zmienne obojętne i oprze na nich podobieństwo kości (jako część Gowera). Jeśli twoja zmienna jest porządkowa, powinieneś wiedzieć, że najnowsza wersja współczynnika Gowera również może ją dostosować.

Jeśli chodzi o liczne wskaźniki określające „najlepszą” liczbę klastrów, większość z nich istnieje niezależnie od tego lub innego algorytmu klastrowania. Nie musisz szukać pakietów grupujących, które koniecznie zawierają takie indeksy, ponieważ te ostatnie mogą istnieć jako osobne pakiety. Po pakiecie klastrowania pozostawiasz szereg rozwiązań klastrowych, a następnie porównujesz je według indeksu z innego pakietu.

ttnphns
źródło
Skończyło się na tym, dzięki za napiwek.
fmark