Chciałbym zhierarchizować moje dane, ale zamiast korzystać z odległości euklidesowej, chciałbym zastosować korelację. Ponadto, ponieważ współczynnik korelacji wynosi od -1 do 1, przy czym zarówno -1, jak i 1 oznaczają „współregulację” w moim badaniu, traktuję zarówno -1, jak i 1 jako d = 0. Więc moje obliczenia wynoszą
Przeczytałem w osobnym pytaniu (dotyczącym grupowania k-średnich), że powinieneś przekonwertować r na prawdziwy euklidesowy d używając twierdzenia cosinus:
Jaki jest najdokładniejszy sposób przekonwertowania korelacji na odległość dla grupowania hierarchicznego?
Odpowiedzi:
Wymagania dotyczące hierarchicznego grupowania
Grupowanie hierarchiczne można stosować z dowolnymi miarami podobieństwa i odmienności. (Większość narzędzi oczekuje odmienności, ale pozwoli na wartości ujemne - od Ciebie zależy, czy preferowana będzie mała czy duża wartość).
Tylko metody oparte na centroidach lub wariancji (takie jak metoda Totema) są wyjątkowe i powinny być stosowane z kwadratowym euklidesem. (Aby zrozumieć dlaczego, dokładnie przestudiuj te linki).
Nie ma to większego wpływu na pojedyncze połączenie, średnie połączenie, całkowite połączenie, nadal będzie to minimalna / średnia / maksymalna różnic pomiędzy parami.
Korelacja jako miara odległości
Jeśli wstępnie przetworzysz swoje dane ( obserwacji, funkcje ) tak, że każda funkcja ma i (co uniemożliwia stałe funkcje!), Wówczas korelacja zmniejsza się do cosinusa:n p μ = 0 σ= 1
W tych samych warunkach kwadratowa odległość euklidesowa zmniejsza się również do cosinusa:
Dlatego, chyba że dane są zdegenerowane, użycie korelacji dla hierarchicznego klastrowania powinno być w porządku. Wystarczy go wstępnie przetworzyć, jak wyjaśniono powyżej, a następnie użyć kwadratowej odległości euklidesowej.
źródło
Only ward's method is special, and should be used with squared Euclidean
. Nie tylko Warda. Każda metoda obliczania centroidów lub odchyleń od centroidów będzie wymagała odległości euklidesowej lub kwadratowej euklidesowej (w zależności od implementacji) ze względu na geometryczną precyzję. W przypadku ich utraty i odpowiedniego ostrzeżenia mogą być używane z innymi odległościami metrycznymi. Te metody to centroid, „mediana”, Totem, wariancja (nie mylić z Totemem!) I niektóre inne.