Ta moja odpowiedź nie odpowiada poprawnie na pytanie. Przeczytaj komentarze.
Porównajmy kowariancję zwykłą i kowariancję odległości . Efektywną częścią obu są ich liczniki. (Mianowniki są po prostu uśredniane.) Licznik kowariancji to zsumowany iloczyn krzyżowy (= iloczyn skalarny) odchyleń od jednego punktu, średnia: ( z indeksem jako tym centroidem). Aby przepisać wyrażenie w tym stylu: , oznacza odchylenie punktu od środka ciężkości, tj. Jego (podpisaną) odległość od środka ciężkości. Kowariancja jest określona przez sumę iloczynu dwóch odległości we wszystkich punktach.μ Σ d x i μΣ(xi−μx)(yi−μy)μ d iΣdxiμdyiμdi
Jak sprawy mają się z kowariancją odległości ? Licznik to, jak wiadomo, . Czy to nie bardzo przypomina to, co napisaliśmy powyżej? A jaka jest różnica Tutaj odległość jest pomiędzy różnymi punktami danych , a nie między punktem danych a średnią jak powyżej. Kowariancja odległości jest określona przez sumę iloczynu dwóch odległości we wszystkich parach punktów. dΣdxijdyijd
Skalarne produkt (pomiędzy dwoma elementami - w naszym przypadku zmiennych i ) w zależności od co-odległości od ustalonego punktu jest największa, gdy dane są usytuowane wzdłuż jednej linii prostej . Iloczyn skalarny oparty na współodległości od punktu zmiennego var * i * jest maksymalizowany, gdy dane są ułożone lokalnie wzdłuż linii prostej, fragmentarycznie; innymi słowy, gdy dane ogólnie reprezentują łańcuch o dowolnym kształcie , zależność od dowolnego kształtu.yxy
I rzeczywiście, zwykła kowariancja jest większa, gdy związek jest bliższy, aby być idealnie liniowym, a wariancje są większe. Jeśli ustandaryzujesz wariancje do ustalonej jednostki, kowariancja zależy tylko od siły asocjacji liniowej, a następnie nazywa się to korelacją Pearsona . I, jak wiemy - i po prostu mamy intuicję, dlaczego - kowariancja odległości jest większa, gdy związek jest bliższy idealnej krzywej, a rozproszenie danych jest większe. Jeśli ustandaryzujesz spready do stałej jednostki, kowariancja zależy tylko od siły pewnego skojarzenia krzywoliniowego, a następnie nazywa się to korelacją Browna (odległość) .