Jak rozumieć formułę współczynnika korelacji?

15

Czy ktoś może mi pomóc zrozumieć formułę korelacji Pearsona? próbka r = średnia z produktów standardowych punktów zmiennych i .YXY

Rozumiem, dlaczego muszą znormalizować i , ale jak zrozumieć produkty obu wyników Z? YXY

Ta formuła jest również nazywana „współczynnikiem korelacji produktu z momentem”, ale jakie jest uzasadnienie działania produktu? Nie jestem pewien, czy moje pytanie było jasne, ale chcę po prostu zapamiętać formułę intuicyjnie.

Aaron Lu
źródło
11
Warto przeczytać artykuł „Trzynaście sposobów spojrzenia na współczynnik korelacji” (Rodgers i Nicewander 1988). Jak sugeruje tytuł, omawia trzynaście różnych intuicyjnych poglądów na współczynnik korelacji. Więc mam nadzieję, że przynajmniej jeden kliknie :)
połowie przebiegu
10
13 sposobów można znaleźć tutaj
Dimitriy V. Masterov,
4
14-gi sposób zrozumieć korelację (w zakresie produktów z wynikami Z) sprowadza się do zrozumienia kowariancji znormalizowanych zmiennych, jak pokazano na stats.stackexchange.com/questions/18058/... .
whuber
4
... a 15. sposób wykorzystuje koła pokazane na stronie stats.stackexchange.com/a/46508/919 : dopasowanie co najmniej kwadratów minimalizuje całkowitą powierzchnię okręgów (istnieją co najmniej dwa sposoby, aby to zrobić, gdy punkty a nie dokładnie w linii), a współczynnik korelacji jest wówczas ich średnim obszarem (gdy obie zmienne są znormalizowane).
whuber
2
Możliwy duplikat Co to jest kowariancja w prostym języku?
kjetil b halvorsen

Odpowiedzi:

14

W komentarzach zasugerowano 15 sposobów zrozumienia współczynnika korelacji:


13 sposobów omówionych w artykule Rodgersa i Nicewandra (The American Statistician, luty 1988)

  1. Funkcja surowych wyników i środków,

    r=(XiX¯)(YiY¯)(XiX¯)2(YiY¯)2.
  2. Standaryzowana kowariancja,

    r=sXY/(sXsY)

    gdzie jest próbka kowariancji i s X i y Y są przykładowymi odchyleń standardowych.sXYsXsY

  3. Znormalizowane nachylenie linii regresji,

    r=bYXsXsY=bXYsYsX,

    gdzie i b X Y są nachyleniami linii regresji.bYXbXY

  4. Średnia geometryczna dwóch nachyleń regresji,

    r=±bYXbXY.
  5. Pierwiastek kwadratowy ze stosunku dwóch wariancji (uwzględniony odsetek proporcji),

    r=(YiYi^)2(YiY¯)2=SSREGSSTOT=sY^sY.
  6. Średni efekt krzyżowy znormalizowanych zmiennych,

    r=zXzY/N.
  7. Funkcja kąta między dwiema znormalizowanymi liniami regresji. Dwie linie regresji ( względem X iYX vs. Y ) są symetryczne względem przekątnej. Niech kąt między dwiema liniami będzie β . NastępnieXYβ

    r=sec(β)±tan(β).
  8. Funkcja kąta między dwoma wektorami zmiennymi,

    r=cos(α).
  9. Przeskalowana wariancja różnicy między znormalizowanymi wynikami. Letting zYzX będzie różnicą między znormalizowanymi zmiennymi i Y dla każdej obserwacji,XY

    r=1s(zYzX)2/2=s(zY+zX)2/21.
  10. Oszacowano na podstawie reguły „balon”,

    r1(h/H)2

    gdzie jest pionowym zakresem całego X - YHXY wykresu rozrzutu a jest zakresem przez „środek rozkładu na osi X ” (to znaczy przez punkt środkowy ).hX

  11. W związku z dwuwymiarowymi elipsami izokoncentracji

    r=D2d2D2+d2

    gdzie iD są odpowiednio długością osi głównej i pomocniczej. r równa się również nachyleniu stycznej linii izokonturu (we współrzędnych znormalizowanych) w punkcie, w którym kontur przecina oś pionową.dr

  12. Funkcja statystyki testu z zaprojektowanych eksperymentów,

    r=tt2+n2

    gdzie jest statystyką testową w t niezależnym teście próbnym dla zaprojektowanego eksperymentu z dwoma warunkami leczenia (oznaczonymi jako X = 0 , 1 ), a n jest łączną całkowitą liczbą obserwacji w dwóch grupach leczenia.ttX=0,1n

  13. Stosunek dwóch środków. Załóżmy dwuwymiarową normalność i standaryzujemy zmienne. Wybierz jakąś dowolnie dużą wartość z X . NastępnieXcX

    r=E(Y|X>Xc)E(X|X>Xc).

(Większość z nich jest dosłowna, z bardzo niewielkimi zmianami w niektórych zapisach).

Niektóre inne metody (być może oryginalne dla tej witryny) są

  • Przez kręgi. jest nachyleniem linii regresji we współrzędnych znormalizowanych. Linię tę można scharakteryzować na różne sposoby, w tym geometryczne, na przykład minimalizując całkowitą powierzchnię okręgów narysowanych między linią a punktami danych na wykresie rozrzutu.r

  • Kolorując prostokąty. Kowariancję można ocenić, kolorując prostokąty na wykresie rozrzutu (tzn. Sumując podpisane obszary prostokątów). Gdy wykres rozrzutu jest znormalizowany, ilość netto koloru - całkowity błąd podpisany - wynosi .r

whuber
źródło
2
Dziękuję, @Avraham, za próbę doprowadzenia tego wątku bez odpowiedzi do pewnego zamknięcia poprzez opublikowanie tutaj odpowiedzi.
whuber