Jak interpretować dendrogram hierarchicznej analizy skupień

25

Rozważ przykład R poniżej:

plot( hclust(dist(USArrests), "ave") )
  1. Co dokładnie oznacza „wysokość” osi y?

  2. Patrząc na Karolinę Północną i Kalifornię (raczej po lewej). Czy Kalifornia jest „bliższa” Karolinie Północnej niż Arizona? Czy mogę dokonać takiej interpretacji?

  3. Hawaje (po prawej) dołączają do gromady dość późno. Widzę to, ponieważ jest „wyższe” niż w innych stanach. Ogólnie, jak mogę zinterpretować fakt, że etykiety są „wyższe” lub „niższe” w dendrogramie poprawnie?

wprowadź opis zdjęcia tutaj

Ric
źródło
1
Odpowiedzi w ?hclust.
Scortchi - Przywróć Monikę
3
Położenia etykiet nie mają znaczenia. Jeśli nie rozumiesz osi Y, to dziwne, że masz wrażenie, że dobrze rozumiesz hierarchiczne grupowanie.
Stéphane Laurent,
1
Należy również pamiętać, że hierarchiczne grupowanie zasadniczo nie daje hierarchicznej (drzewiastej) klasyfikacji . W szczególności średnia metoda (której użyłeś) nie. Zobacz ostatni punkt tutaj .
ttnphns
1
Pozycja etykiety ma jednak niewielkie znaczenie. Im wyższa pozycja, tym później obiekt łączy się z innymi, a zatem bardziej przypomina to wartość odstającą lub zbłąkaną.
ttnphns
3
@ StéphaneLaurent Masz rację, że to brzmi jak sprzeczność. Z drugiej strony nadal uważam, że jestem w stanie zinterpretować dobrze znany dendogram danych. Ponadto pozycja lables ma niewielkie znaczenie, jak wskazują ttnphns i Peter Flom. Wreszcie twój komentarz nie był dla mnie konstruktywny.
Ric

Odpowiedzi:

17

1) Oś y jest miarą bliskości poszczególnych punktów danych lub klastrów.

2) Kalifornia i Arizona są równie odległe od Florydy, ponieważ CA i AZ są w klastrze przed dołączeniem do FL.

3) Hawaje dołączają raczej późno; około 50. Oznacza to, że klaster, do którego się przyłącza, jest bliżej siebie przed dołączeniem HI. Ale niewiele bliżej. Zauważ, że klaster, do którego się przyłącza (ten do końca po prawej), tworzy się tylko około 45. Fakt, że HI dołącza do klastra później niż w jakimkolwiek innym stanie, oznacza po prostu, że (używając dowolnej wybranej metryki) HI nie jest tak blisko jakikolwiek konkretny stan.

Peter Flom - Przywróć Monikę
źródło
Zatem „wysokość” daje mi wyobrażenie o wartości kryterium łącza (jak tutaj ) - w moim przypadku średnia odległość klastrów od siebie. Czy to jest poprawne? Dzięki!
Ric
Nie jest oś Y miarą dis podobieństwa klastrów i punkty? Tzn. Ujemna bliskość, ponieważ jest największa, gdy rzeczy są najbardziej odmienne, a nie na odwrót @PeterFlom
Felipe Almeida
21

Miałem te same pytania, kiedy próbowałem nauczyć się grupowania hierarchicznego i stwierdziłem, że poniższy plik pdf jest bardzo przydatny.

http://www.econ.upf.edu/~michael/stanford/maeb7.pdf

Nawet jeśli Richard ma już jasność co do procedury, inni, którzy przeglądają to pytanie, prawdopodobnie mogą skorzystać z pliku pdf, który jest bardzo prosty i przejrzysty dla tych, którzy nie mają wystarczającej wiedzy matematycznej.

Srmsbrmnm
źródło
3
Chciałbym tylko powtórzyć, że połączony plik pdf jest bardzo dobry.
Heisenberg
Referencje: Klimberg, Ronald K. i BD McCullough. 2013. „Rozdział 7: Hierarchiczna analiza skupień.” W Podstawach analityki predykcyjnej z JMP. Cary, Karolina Północna: SAS Institute.
jay.sf
1

Oś pozioma reprezentuje klastry. Skala pionowa na dendrogramie reprezentuje odległość lub odmienność. Każde połączenie (połączenie) dwóch klastrów jest przedstawione na schemacie poprzez podział linii pionowej na dwie linie pionowe. Pionowa pozycja podziału, pokazana krótkim paskiem, podaje odległość (odmienność) między dwoma skupieniami.

Babaasa
źródło