Hierarchiczne grupowanie z danymi mieszanego typu - jakiej odległości / podobieństwa użyć?

34

W moim zestawie danych mamy zarówno zmienne ciągłe, jak i naturalnie dyskretne. Chcę wiedzieć, czy możemy przeprowadzać hierarchiczne grupowanie przy użyciu obu typów zmiennych. A jeśli tak, jaki pomiar odległości jest odpowiedni?

Beta
źródło
Z jakiego oprogramowania korzystasz?
rolando2
@ rolando2: Używam R (pakiet hclus).
Beta
1
Czy istnieje powód korzystania z hierarchicznego klastrowania?
suncoolsu,
Na. Zadaję to pytanie ze względu na moją wiedzę. Czy możemy robić hierarchiczne, gdy mamy mieszany typ danych. Jeśli tak, to dlaczego? Jeśli nie, to dlaczego?
Beta
@ user4278 Cóż, jaki jest twój cel w porządku ? Czy chcesz zidentyfikować klastry (osób)?
chl

Odpowiedzi:

45

Jednym ze sposobów jest zastosowanie współczynnika podobieństwa Gowera, który jest miarą złożoną 1 ; wymaga zmiennych ilościowych (takich jak skala ocen), binarnych (takich jak obecne / nieobecne) i nominalnych (takich jak pracownik / nauczyciel / urzędnik). Później Podani 2 dodał także opcję przyjmowania zmiennych porządkowych.12

Współczynnik można łatwo zrozumieć nawet bez wzoru; obliczasz wartość podobieństwa między poszczególnymi osobami dla każdej zmiennej, biorąc pod uwagę typ zmiennej, a następnie uśredniasz dla wszystkich zmiennych. Zwykle program obliczający Gowera pozwala na ważenie zmiennych, to znaczy ich udziału, w formule złożonej. Jednak właściwe ważenie zmiennych różnego typu stanowi problem , nie istnieją wyraźne wytyczne, które sprawiają, że Gower lub inne „złożone” wskaźniki zbliżenia przyciągają twarz.

Aspekty podobieństwa Gowera ( GS ):

  • Gdy wszystkie zmienne mają charakter ilościowy (przedział), wówczas współczynnikiem jest znormalizowana w zakresie odległości odległość Manhattanu przeliczona na podobieństwo. Ze względu na normalizację zmienne różnych jednostek mogą być bezpiecznie stosowane. Nie należy jednak zapominać o wartościach odstających. (Możesz również zdecydować się na normalizację za pomocą innej miary rozproszenia niż zasięg.) Z powodu wspomnianej normalizacji za pomocą statystyki, takiej jak zakres, która jest wrażliwa na skład osób w zbiorze danych Podobieństwo Gowera między niektórymi dwoma osobami może zmienić jego wartość jeśli usuniesz lub dodasz inne dane w danych.
  • Kiedy wszystkie zmienne są porządkowe, najpierw są uszeregowane, a następnie obliczany jest Manhattan, jak wyżej ze zmiennymi ilościowymi, ale ze specjalnym dostosowaniem dla powiązań.
  • Gdy wszystkie zmienne są binarne (z asymetrycznym znaczeniem kategorii: atrybut „obecny” vs „nieobecny”), wówczas współczynnik jest współczynnikiem dopasowania Jaccard (współczynnik ten traktuje, gdy obie osoby nie mają atrybutu ani jako dopasowanie, ani niedopasowanie).
  • Gdy wszystkie zmienne są nominalne (włączając także tutaj dychotomiczne ze znaczeniem symetrycznym: „to” vs „tamto”), wówczas współczynnik jest współczynnikiem dopasowania kości uzyskanym ze zmiennych nominalnych, jeśli przekształcisz je w zmienne zastępcze (więcej informacji znajdziesz w tej odpowiedzi ) .

(Łatwo jest rozszerzyć listę typów. Na przykład można dodać zestawienie zmiennych zliczających, używając znormalizowanej odległości chi-kwadrat przeliczonej na podobieństwo).

Współczynnik wynosi od 0 do 1.

1GS1GS1GS1GS

Przy odległościach euklidesowych (odległościach wspierających przestrzeń euklidesową) wystarczy praktycznie każda klasyczna technika grupowania. Uwzględniając K-średnie (jeśli twój program K-średnich może oczywiście przetwarzać macierze odległości) i włączając Warda, centroid, medianowe metody grupowania hierarchicznego . Być może użycie środków K lub innych metod opartych na odległości euklidesowej z odległością wciąż niemetuklidesową jest heurystycznie dopuszczalne. W przypadku odległości niemetrycznych nie można stosować takich metod.

Poprzedni akapit mówi o tym, czy K-średnie lub Totem lub takie skupienie jest legalne, czy nie z odległością Gowera matematycznie (geometrycznie). Z punktu widzenia skali pomiarowej („psychometrycznej”) nie należy obliczać średniej lub euklidesowej odchyłki odległości od niej w danych kategorycznych (nominalnych, binarnych, a także porządkowych); dlatego z tej postawy po prostu nie możesz przetwarzać współczynnika Gowera za pomocą K-średnich, Totemu itp. Ten punkt widzenia ostrzega, że ​​nawet jeśli przestrzeń euklidesowa jest obecna, może być granulowana, a nie gładka ( patrz powiązane ).


1

2

ttnphns
źródło
Dzięki ttnphns! Czy możesz mi powiedzieć, czy „współczynnik podobieństwa Gowera” jest zintegrowany z pakietem hclus w R? Czy jest jakiś pakiet w R, który ma tę funkcjonalność.
Beta
Nie jestem użytkownikiem R, więc nie wiem i nie sądzę, że znajdziesz go w hclus. Ale jeśli Google „Gower podobieństwo R” na pewno znajdziesz to, czego potrzebujesz!
ttnphns
user4278, Na wypadek, gdybyś nie unikał SPSS, mam makro dla podobieństwa Gower na mojej stronie. Akceptuje ważenie i brakujące dane.
ttnphns
@ user4278 O R konkretnie, zacznij tutaj: cran.r-project.org/web/views/Environmetrics.html
chl
@ttnphns: Dzięki! Odwiedziłem twoją stronę i jest to świetny zasób dla SPSS. Ale niestety nie używam zbyt dużo SPSS. Ale na pewno go użyję, jeśli nie dostanę niczego w R. @ chl: Dziękuję! Ale to ogromna lista. Czytałem gdzieś, że Daisy w pakiecie klastrowym ma funkcjonalność podobieństwa Gowera.
Beta
15

Jeśli natknąłeś się na to pytanie i zastanawiasz się, jaki pakiet do pobrania za pomocą metryki Gowera w R , clusterpakiet ma funkcję o nazwie daisy () , która domyślnie używa metryki Gowera za każdym razem, gdy używane są mieszane typy zmiennych. Lub możesz ręcznie ustawić, aby korzystał z danych Gowera.

daisy(x, metric = c("euclidean", "manhattan", "gower"),
      stand = FALSE, type = list(), weights = rep.int(1, p))
Zhubarb
źródło
4
W nawiązaniu do odpowiedzi Zhubarb jest , jeśli chcesz Gower odległości między wszystkimi parami z dwoma zestawami danych, a następnie zobaczyć pakiet R StatMatch.
James Hirschorn,