Rozważ przykład R poniżej:
plot( hclust(dist(USArrests), "ave") )
Co dokładnie oznacza „wysokość” osi y?
Patrząc na Karolinę Północną i Kalifornię (raczej po lewej). Czy Kalifornia jest „bliższa” Karolinie Północnej niż Arizona? Czy mogę dokonać takiej interpretacji?
Hawaje (po prawej) dołączają do gromady dość późno. Widzę to, ponieważ jest „wyższe” niż w innych stanach. Ogólnie, jak mogę zinterpretować fakt, że etykiety są „wyższe” lub „niższe” w dendrogramie poprawnie?
?hclust
.Odpowiedzi:
1) Oś y jest miarą bliskości poszczególnych punktów danych lub klastrów.
2) Kalifornia i Arizona są równie odległe od Florydy, ponieważ CA i AZ są w klastrze przed dołączeniem do FL.
3) Hawaje dołączają raczej późno; około 50. Oznacza to, że klaster, do którego się przyłącza, jest bliżej siebie przed dołączeniem HI. Ale niewiele bliżej. Zauważ, że klaster, do którego się przyłącza (ten do końca po prawej), tworzy się tylko około 45. Fakt, że HI dołącza do klastra później niż w jakimkolwiek innym stanie, oznacza po prostu, że (używając dowolnej wybranej metryki) HI nie jest tak blisko jakikolwiek konkretny stan.
źródło
Miałem te same pytania, kiedy próbowałem nauczyć się grupowania hierarchicznego i stwierdziłem, że poniższy plik pdf jest bardzo przydatny.
http://www.econ.upf.edu/~michael/stanford/maeb7.pdf
Nawet jeśli Richard ma już jasność co do procedury, inni, którzy przeglądają to pytanie, prawdopodobnie mogą skorzystać z pliku pdf, który jest bardzo prosty i przejrzysty dla tych, którzy nie mają wystarczającej wiedzy matematycznej.
źródło
Oś pozioma reprezentuje klastry. Skala pionowa na dendrogramie reprezentuje odległość lub odmienność. Każde połączenie (połączenie) dwóch klastrów jest przedstawione na schemacie poprzez podział linii pionowej na dwie linie pionowe. Pionowa pozycja podziału, pokazana krótkim paskiem, podaje odległość (odmienność) między dwoma skupieniami.
źródło