Czy istnieje intuicyjna charakterystyka korelacji odległości?

14

Patrzyłem na stronę wikipedii, aby znaleźć korelację odległości, na której wydaje się, że cechuje ją sposób jej obliczenia. O ile mogłem zrobić obliczenia walczę aby uzyskać środki korelacji jakiej odległości i dlatego obliczenia wyglądają tak robią.

Czy istnieje (lub wiele) bardziej intuicyjna charakterystyka korelacji odległości, która mogłaby pomóc mi zrozumieć, co mierzy?

Zdaję sobie sprawę, że pytanie o intuicję jest trochę niejasne, ale gdybym wiedział, o którą intuicję prosiłem, prawdopodobnie nie zapytałbym w pierwszej kolejności. Byłbym również szczęśliwy z intuicji dotyczącej przypadku korelacji odległości między dwiema zmiennymi losowymi (mimo że korelacja odległości jest zdefiniowana między dwoma wektorami losowymi).

Rasmus Bååth
źródło

Odpowiedzi:

8

Ta moja odpowiedź nie odpowiada poprawnie na pytanie. Przeczytaj komentarze.

Porównajmy kowariancję zwykłą i kowariancję odległości . Efektywną częścią obu są ich liczniki. (Mianowniki są po prostu uśredniane.) Licznik kowariancji to zsumowany iloczyn krzyżowy (= iloczyn skalarny) odchyleń od jednego punktu, średnia: ( z indeksem jako tym centroidem). Aby przepisać wyrażenie w tym stylu: , oznacza odchylenie punktu od środka ciężkości, tj. Jego (podpisaną) odległość od środka ciężkości. Kowariancja jest określona przez sumę iloczynu dwóch odległości we wszystkich punktach.μ Σ d x i μΣ(xiμx)(yiμy)μ d iΣdiμxdiμydi

Jak sprawy mają się z kowariancją odległości ? Licznik to, jak wiadomo, . Czy to nie bardzo przypomina to, co napisaliśmy powyżej? A jaka jest różnica Tutaj odległość jest pomiędzy różnymi punktami danych , a nie między punktem danych a średnią jak powyżej. Kowariancja odległości jest określona przez sumę iloczynu dwóch odległości we wszystkich parach punktów. dΣdijxdijyd

Skalarne produkt (pomiędzy dwoma elementami - w naszym przypadku zmiennych i ) w zależności od co-odległości od ustalonego punktu jest największa, gdy dane są usytuowane wzdłuż jednej linii prostej . Iloczyn skalarny oparty na współodległości od punktu zmiennego var * i * jest maksymalizowany, gdy dane są ułożone lokalnie wzdłuż linii prostej, fragmentarycznie; innymi słowy, gdy dane ogólnie reprezentują łańcuch o dowolnym kształcie , zależność od dowolnego kształtu.yxy

I rzeczywiście, zwykła kowariancja jest większa, gdy związek jest bliższy, aby być idealnie liniowym, a wariancje są większe. Jeśli ustandaryzujesz wariancje do ustalonej jednostki, kowariancja zależy tylko od siły asocjacji liniowej, a następnie nazywa się to korelacją Pearsona . I, jak wiemy - i po prostu mamy intuicję, dlaczego - kowariancja odległości jest większa, gdy związek jest bliższy idealnej krzywej, a rozproszenie danych jest większe. Jeśli ustandaryzujesz spready do stałej jednostki, kowariancja zależy tylko od siły pewnego skojarzenia krzywoliniowego, a następnie nazywa się to korelacją Browna (odległość) .

ttnphns
źródło
Drugi akapit kazał mi kliknąć. Nie wiem, dlaczego tego nie widziałem na stronie wikipedii ... Dzięki!
Rasmus Bååth,
Zastanawiam się, gdzie w en.wikipedia.org/wiki/Brownian_covariance#Distance_covariance jest licznik z twojego przykładu (lub jak dostać się z licznika do wersji wikipedii)? Wikipedia po prostu opisuje, jak obliczyć kwadrat kowariancji odległości, i mam trochę problemów z dopasowaniem twojego opisu do opisu tam ...
Rasmus Bååth
@Rasmus, moja „formuła licznika” zgadza się z wikipedijską formułą kowariancji odległości kwadratu próbki. Ale przegapiłem jeden (ważny) niuans, że odległości są przekształcane przez podwójne centrowanie. Dlatego być może będę musiał edytować swoją odpowiedź. Mam nadzieję, że znajdę czas na powrót za kilka dni, jeśli nie jutro. d
ttnphns
Tak, zastanawia mnie podwójne centrowanie. Byłoby bardzo mile widziane, gdybyś miał czas, aby to wyjaśnić! :)
Rasmus Bååth
1
To, co wciąż mnie unika, to dlaczego niższa moc, np. Domyślna , która zmniejsza i wyrównuje odchylenia uzyskane przy podwójnym centrowaniu, czyni dCOV statystyką, która ma swoją unikalną właściwość: wynosi 0 i X X i Y są statystycznie niezależne. Ponieważ nie mam intuicji ani wiedzy na ten temat, obawiam się, że drugi akapit mojej odpowiedzi to błędna interpretacja lub uproszczenie. Dlatego skłaniałem się do usunięcia mojej odpowiedzi. Czy możesz coś powiedzieć α=1
ttnphns