W przypadku hierarchicznego grupowania często widzę następujące dwie „metryki” (nie do końca mówią) do pomiaru odległości między dwiema losowymi zmiennymi i : \ newcommand {\ Cor} {\ mathrm {Cor}} \ begin {align} d_1 (X, Y) i = 1- | \ Cor (X, Y) |, \\ d_2 (X, Y) i = 1 - (\ Cor (X, Y)) ^ 2 \ end {align} Czy albo wypełnić trójkąt nierówności? Jeśli tak, to w jaki sposób mam to udowodnić, nie wykonując obliczeń brutalnej siły? Jeśli nie są to wskaźniki, to jaki jest prosty licznik?Y
13
Odpowiedzi:
Nierówność trójkąta nad1 przyniósłby:
Wydaje się to dość łatwą nierównością do pokonania. Możemy uczynić prawą stronę tak małą, jak to możliwe (dokładnie jedną), czyniącX i Z niezależnymi. Czy możemy zatem znaleźć Y dla którego lewa strona przekracza jedno?
Jeśli oraz i mają identyczną wariancję, to i podobnie dla , więc lewa strona znajduje się znacznie powyżej jednego, a nierówność zostaje naruszona. Przykład tego naruszenia w R, gdzie i są składnikami normalnej zmiennej na wielu odmianach:Y=X+Z X Z Cor(X,Y)=2√2≈0.707 Cor(Y,Z) X Z
Pamiętaj jednak, że ta konstrukcja nie działa z twoim :d2
Zamiast przeprowadzić teoretyczny atak na , na tym etapie po prostu łatwiej mi było bawić się macierzą kowariancji w R, dopóki nie pojawiła się ładna kontrprzykład. Dopuszczenie , i daje:d2 Var(X)=2 Var(Z)=1 Cov(X,Z)=1
Sigma
Możemy również zbadać kowariancje:
Kwadratowe korelacje to:
Wtedy podczas gdy i więc nierówność trójkąta jest naruszona przez znaczny margines.d2(X,Z)=0.5 d2(X,Y)=0.1 d2(Y,Z)=0.2
źródło
Miejmy trzy wektory (może to być zmienne lub osoby) , i . I każdy z nich znormalizowaliśmy do wyników Z (średnia = 0, wariancja = 1).X Y Z
Zatem zgodnie z twierdzeniem cosinus („prawo cosinusów”) kwadratowa odległość euklidesowa między dwoma znormalizowanymi wektorami (powiedzmy X i Y) wynosi , gdzie , podobieństwo cosinus, to Pearson ze względu na standaryzację z wektorów. Możemy bezpiecznie pominąć stały mnożnik naszych rozważaniach.d2XY=2(n−1)(1−cosXY) cosXY rXY 2(n−1)
Okazuje się zatem, że odległość wyrażona w pytaniu jakobyłby kwadratową odległością euklidesową, gdyby formuła nie ignorowała znaku współczynnika korelacji.d1(X,Y)=1−|Cor(X,Y)|
Jeśli macierzs zdarza się, że jest podzielan (dodatni półfinał), to pierwiastek kwadratowy z odległości „d1” jest odległością euklidesową, co jest oczywiście metryczne. Z niedużymi matrycamiczęsto jest to przypadek lub blisko przypadku, gdy odległości nie są dalekie od zbiegania się dobrze w przestrzeni euklidesowej. Ponieważ metryka jest szerszą klasą niż euklidesowa, dana matryca odległości „sqrt (d1)” mogłaby często pojawiać się jako metryka.|r| |r|
Jeśli chodzi o „d1” jako takie, które jest „podobne” do kwadratu odległości euklidesowej, to jest zdecydowanie niemetryczne. Nawet prawdziwa kwadratowa odległość euklidesowa nie jest metryczna: czasami narusza zasadę nierówności trójkąta. [W analizie skupień często stosuje się kwadratową odległość euklidesową; jednak większość takich przypadków zakłada budowanie analizy na odległości nieprzekwadanej, przy czym kwadraty są po prostu wygodnym wkładem do obliczeń.] Aby to zobaczyć (o kwadratowym euklidesie ), narysujmy nasze trzy wektory.d
Wektory mają długość jednostkową (ponieważ są znormalizowane). Cosinus kątów ( , , ) to odpowiednio , , . Kąty te rozkładają odpowiednie odległości euklidesowe między wektorami: , , . Dla uproszczenia wszystkie trzy wektory znajdują się na tej samej płaszczyźnie (a zatem kąt między i jest sumą dwóch pozostałych, ). Jest to pozycja, w której najbardziej widoczne jest naruszenie nierówności trójkąta przez kwadraty odległości .α β α+β rXY rXZ rYZ dXY dXZ dYZ X Z α+β
Bo, jak widać oczami, zielony kwadrat przewyższa sumę dwóch czerwonych kwadratów: .d2YZ>d2XY+d2XZ
Dlatego dotyczący
odległość możemy powiedzieć, że nie jest metryczna. Ponieważ nawet gdy wszystkie były pierwotnie dodatnie, odległość jest euklidesowa która sama w sobie nie jest metryczna.r d2
Co jest z drugą odległością?
Ponieważ korelacja przypadku wektorów znormalizowanych wynosi , oznacza . (Rzeczywiście, jest regresją liniową, wielkością, która jest kwadratową korelacją zmiennej zależnej z czymś prostopadłym do predyktora.) W takim przypadku narysuj sinusy wektorów i ułóż je do kwadratu (ponieważ my mówią o odległości, która jest ):r cos 1−r2 sin2 1−r2 sin2
SSerror/SStotal
Chociaż wizualnie nie jest to całkiem oczywiste, zielony jest ponownie większy niż suma czerwonych obszarów .sin2YZ sin2XY+sin2XZ
Można to udowodnić. W samolocie . Wyprostuj obie strony, ponieważ jesteśmy zainteresowani .sin(α+β)=sinαcosβ+cosαsinβ sin2
W ostatnim wyrażeniu dwa ważne terminy podano w nawiasach. Jeśli drugi z nich jest (lub może być) większy od pierwszego, wówczas , a odległość „d2” narusza trójkątna nierówność. I tak jest na naszym zdjęciu, gdzie wynosi około 40 stopni, a wynosi około 30 stopni (termin 1 to, a termin 2 to ). „D2” nie jest metryką.sin2(α+β)>sin2α+sin2β α β
.1033
.2132
Pierwiastek kwadratowy odległości „d2” - miara odmienności sinusoidalnej - jest jednak metryczny (jak sądzę). Aby się upewnić, możesz grać pod różnymi kątami i w moim kręgu. To, czy „d2” okaże się również metryczne w ustawieniach innych niż współliniowe (tj. Trzy wektory nie w płaszczyźnie) - nie mogę w tej chwili powiedzieć, choć wstępnie zakładam, że tak będzie.α β
źródło
Zobacz także ten przedruk, który napisałem: http://arxiv.org/abs/1208.3145 . Nadal muszę poświęcić czas i odpowiednio go przesłać. Streszczenie:
Wynik twojego pytania jest taki , że d1 , d2 faktycznie nie są metrykami i że pierwiastek kwadratowy z d2 jest w rzeczywistości właściwą metryką.
źródło
Nie.
Najprostszy kontrprzykład:
dla odległość nie jest zdefiniowana w ogóle, niezależnie od jest.X=(0,0) Y
Każda stała seria ma odchylenie standardowe , a zatem powoduje podział przez zero w definicji ...σ=0 Cor
Jest co najwyżej metryką w podzbiorze przestrzeni danych, nie uwzględniając żadnych stałych serii.
źródło