O korelacji kopenetycznej dla grupowania dendrogramu

10

Rozważ kontekst klastrowania dendrogramu. Nazwijmy pierwotne odmienności odległościami między jednostkami. Po skonstruowaniu dendrogramu definiujemy khenetyczną odmienność między dwoma osobami jako odległość między skupieniami, do których te osoby należą.

Niektóre osoby uważają, że korelacja między pierwotnymi odmiennościami a kopenetycznymi odmiennościami (zwana korelacją kopenetyczną ) jest „wskaźnikiem przydatności” klasyfikacji. Brzmi dla mnie całkowicie zagadkowo. Mój sprzeciw nie opiera się na konkretnym wyborze korelacji Pearsona, ale na ogólnej idei, że jakikolwiek związek między pierwotnymi odmiennościami a kopenetycznymi odmiennościami może być związany ze stosownością klasyfikacji.

Czy zgadzasz się ze mną, czy może przedstawiłbyś argument przemawiający za wykorzystaniem korelacji kopenetycznej jako wskaźnika przydatności do klasyfikacji dendrogramu?

Stéphane Laurent
źródło
Nie wyjaśniasz swojego sprzeciwu (dość intuicyjnie) general idea that any link between the original dissimilarities and the cophenetic dissimilarities could be related to the suitability of the classification. Klasyfikacja powinna odzwierciedlać pierwotne różnice. Podstawową cechą klasyfikacji Dendrogramic w tym celu jest odmienność kopenetyczna. Czy jest coś źle?
ttnphns
1
Nawiasem mówiąc, nie należy mieszać koncepcji klastrowania hierarchicznego (aglometatywnego) z klasyfikacją hierarchiczną (dendrogramową) . Klastrowanie tworzy swój dendrogram jako raport procesu ; nie twierdzi, że jest to wynik klasyfikacji hierarchicznej .
ttnphns
1
Korelacja kopenetyczna została zaproponowana tylko dla klasyfikacji „dogmatycznych” - w przypadku gdy klasyfikacja powinna odzwierciedlać rozbieżności par, stąd pojęcie użyteczności korelacji (kopenetycznej) pojawia się nieubłaganie.
ttnphns
2
Możesz przeczytać ten artykuł na temat korelacji
kopenetycznej
3
@ StéphaneLaurent Nie mam nic wspólnego z odpowiedzią na twoje pytanie, ale czytałem okno dialogowe. Nic, co powiedziałeś, nie było dla mnie obraźliwe. Powiedziałeś także, że nie znasz różnicy między klasyfikacją a klastrowaniem i że nie widziałem odpowiedzi na to proste pytanie. Jest to różnica między tym, co ludzie uczący się przez maszynę nazywają uczeniem nadzorowanym i bez nadzoru. W klasyfikacji znasz wszystkie etykiety klas dla swoich danych i wykorzystujesz te informacje do budowy reguły klasyfikacji dla przyszłych spraw, które nie będą miały etykiet. W klastrze nie masz etykiet.
Michael R. Chernick

Odpowiedzi:

2

... jest „wskaźnikiem przydatności” klasyfikacji

Dla mnie nie jest jasne, co to oznacza. Tak to rozumiem

korelacja między pierwotnymi odmiennościami a kopenetycznymi odmiennościami (zwana korelacją kopenetyczną)

jest miarą struktury hierarchicznej między obserwacjami , tj. ich odległości. To znaczy, że podobieństwa do obserwacji w innej grupie są korzystnie podobne. Biorąc pod uwagę zestawy danych A i B skupione za pomocą odległości euklidesowej i pełnego połączenia ... wprowadź opis zdjęcia tutaj ... nawet bez spojrzenia na kopenetyczną mapę odległości lub obliczenie korelacji kopenetycznej, można zauważyć, że korelacja kopenetyczna A jest wyższa niż B W hierarchii są poziomy. Tak więc CC mówi o tym, czy odległości do obserwacji na tym samym poziomie (gromadzie) są podobne.

Dla kompletności: Korelacje kopenetyczne wynoszą CC (A) = 0,936 i CC (B) = 0,691


źródło
2
Chciałbym być w tym bardziej ekspertem. Nie do końca podążam za twoim przykładem w mapach cieplnych. Co widzisz, co pokazuje, że CC (A)> CC (B)? Na przykład, jeśli górne trójkąty były odległościami kopenetycznymi, a dolne trójkąty były oryginalnymi odległościami i oba wykazywały podobne wzory, to rozpoznałbym, że CC byłoby wysokie itp. W / te nie jestem pewien, jak dokonać takiego wnioskowania . Czy to po prostu, że A w naturalny sposób przyczyni się do lepszego tworzenia klastrów, a więc wynikowe CC będzie po prostu dobrze pasowało?
gung - Przywróć Monikę