Mam macierzy kowariancji i chcę podzielić zmienne na klastrów za pomocą hierarchicznego grupowania (na przykład, aby posortować macierz kowariancji).k
Czy istnieje typowa funkcja odległości między zmiennymi (tj. Między kolumnami / rzędami kwadratowej macierzy kowariancji)?
A jeśli jest ich więcej, czy istnieje dobre odniesienie do tematu?
clustering
covariance
distance-functions
distance
Piotr Migdal
źródło
źródło
Odpowiedzi:
Kowariancję (lub korelację lub cosinus) można łatwo i naturalnie przekształcić w odległość euklidesową za pomocą prawa cosinusa , ponieważ jest to iloczyn skalarny (= podobieństwo oparte na kątach) w przestrzeni euklidesowej. Znajomość kowariancji między dwiema zmiennymi i i j, a także ich wariancji automatycznie oznacza znajomość d między zmiennymi: . (To jest wprost proporcjonalne do zwykłej kwadratowej odległości euklidesowej d 2 i jre2)I j= σ2)ja+ σ2)jot- 2 c o vI j re2)I j : otrzymujesz to drugie, jeśli zamiast wariancji i kowariancji użyjesz sum kwadratów i sumy krzyżowych produktów. Obie zmienne powinny być oczywiście początkowo wyśrodkowane: mówienie o „kowariancjach” jest aliasem do myślenia o danych z usuniętymi środkami).
Zauważ, że ta formuła oznacza, że kowariancja ujemna jest większa od odległości kowariancji dodatniej (i rzeczywiście tak jest z geometrycznego punktu widzenia, tj. Kiedy zmienne są postrzegane jako wektory w przestrzeni przedmiotowej ). Jeśli nie chcesz, aby znak kowariancji grał rolę, zlikwiduj znak ujemny. Ignorowanie znaku ujemnego nie jest operacją „łatania ręcznie” i jest uzasadnione, gdy jest to potrzebne: jeśli macierz cov jest dodatnia, dodatnia, macierz abs (cov) również będzie dodatnia; a tym samym odległości uzyskane w powyższym wzorze będą prawdziwymi euklidesowa odległości (odległość euklidesowa stanowi szczególny rodzaj metryki odległość).
Odległości euklidesowe są uniwersalne w odniesieniu do hierarchicznego grupowania : każda metoda takiego grupowania jest ważna dla euklidesowego lub kwadratowego euklidesowego d . Ale niektóre metody, np. Średnie połączenie lub całkowite połączenie, mogą być stosowane z dowolną podobieństwem lub podobieństwem (nie tylko odległościami metrycznymi). Możesz więc zastosować takie metody bezpośrednio z macierzą odległości cov lub abs (cov) lub - na przykład - z macierzą odległości max (abs (cov)) - abs (cov) . Oczywiście wyniki grupowania potencjalnie zależą od dokładnej natury zastosowanego (nie) podobieństwa.
źródło
Dlaczego nie wykorzystać macierzy korelacji do tworzenia klastrów? Zakładając, że zmienne losowe są wyśrodkowane, obliczając korelację między zmiennymi, obliczasz odległość podobieństwa cosinus . Ta odległość jest również podana w twoim linku. Tę odległość można wykorzystać do hierarchicznego grupowania. Im mniejsze podobieństwo 1 - | cosinus |, tym bardziej podobne są twoje zmienne.
źródło