Używanie korelacji jako miary odległości (dla hierarchicznego grupowania)

22

Chciałbym zhierarchizować moje dane, ale zamiast korzystać z odległości euklidesowej, chciałbym zastosować korelację. Ponadto, ponieważ współczynnik korelacji wynosi od -1 do 1, przy czym zarówno -1, jak i 1 oznaczają „współregulację” w moim badaniu, traktuję zarówno -1, jak i 1 jako d = 0. Więc moje obliczenia wynoszą d=1|r|

Przeczytałem w osobnym pytaniu (dotyczącym grupowania k-średnich), że powinieneś przekonwertować r na prawdziwy euklidesowy d używając twierdzenia cosinus:re=2)(1-r)

Jaki jest najdokładniejszy sposób przekonwertowania korelacji na odległość dla grupowania hierarchicznego?

Megatron
źródło
3
Tak, jednym z możliwych - i geometrycznie poprawnych sposobów - jest ostatnia formuła. Ale możesz zignorować znak jeśli ma to dla ciebie sens, tak że . W większości przypadków możesz bezpiecznie upuścić bez wpływu na wyniki klastrowania. Odległość można traktować jak kwadratowy euklides. W tym wątku omówiono, czy miary korelacji przeliczonej na odległość są odległościami metrycznymi. rre2)=2)(1-|r|)2)
ttnphns,
2
Ponadto nie zawsze trzeba przekształcać na liniową odmienność, taką jak odległość euklidesowa. Nie tak rzadko ludzie klastrują bezpośrednio na podstawie lubjak podobieństwo; to podobieństwo kątowerr|r|
ttnphns

Odpowiedzi:

21

Wymagania dotyczące hierarchicznego grupowania

Grupowanie hierarchiczne można stosować z dowolnymi miarami podobieństwa i odmienności. (Większość narzędzi oczekuje odmienności, ale pozwoli na wartości ujemne - od Ciebie zależy, czy preferowana będzie mała czy duża wartość).

Tylko metody oparte na centroidach lub wariancji (takie jak metoda Totema) są wyjątkowe i powinny być stosowane z kwadratowym euklidesem. (Aby zrozumieć dlaczego, dokładnie przestudiuj te linki).

Nie ma to większego wpływu na pojedyncze połączenie, średnie połączenie, całkowite połączenie, nadal będzie to minimalna / średnia / maksymalna różnic pomiędzy parami.

Korelacja jako miara odległości

Jeśli wstępnie przetworzysz swoje dane ( obserwacji, funkcje ) tak, że każda funkcja ma i (co uniemożliwia stałe funkcje!), Wówczas korelacja zmniejsza się do cosinusa:npμ=0σ=1

Corr(X,Y)=Cov(X,Y)σXσY=E[(XμX)(YμY)]σXσY=E[XY]=1nX,Y

W tych samych warunkach kwadratowa odległość euklidesowa zmniejsza się również do cosinusa:

reEuklides2)(X,Y)=(Xja-Yja)2)=Xja2)+Yja2)-2)XjaYja=2)n-2)X,Y=2)n[1-Corr(X,Y)]

Dlatego, chyba że dane są zdegenerowane, użycie korelacji dla hierarchicznego klastrowania powinno być w porządku. Wystarczy go wstępnie przetworzyć, jak wyjaśniono powyżej, a następnie użyć kwadratowej odległości euklidesowej.

Anony-Mus
źródło
1
Only ward's method is special, and should be used with squared Euclidean. Nie tylko Warda. Każda metoda obliczania centroidów lub odchyleń od centroidów będzie wymagała odległości euklidesowej lub kwadratowej euklidesowej (w zależności od implementacji) ze względu na geometryczną precyzję. W przypadku ich utraty i odpowiedniego ostrzeżenia mogą być używane z innymi odległościami metrycznymi. Te metody to centroid, „mediana”, Totem, wariancja (nie mylić z Totemem!) I niektóre inne.
ttnphns
Dzięki, wyjaśniłem to. Nie wiedziałem o tych zmianach, myślałem tylko o pojedynczym / przeciętnym / kompletnym / oddziale.
Anony-Mousse,
1
W tym poście jest wiele literówek i niezdefiniowanych wyrażeń! Czy możesz to przejrzeć, naprawić i wyjaśnić, co to jest „ ” i do czego może odnosić się „ ”? D i m,rejam
whuber