Dlaczego współczynnik korelacji między zmiennymi losowymi X i XY wynosi zwykle 0,7

49

Zaczerpnięte z praktycznych statystyk badań medycznych, gdzie Douglas Altman pisze na stronie 285:

... dla dowolnych dwóch wielkości X i Y, X będzie skorelowane z XY. Rzeczywiście, nawet jeśli X i Y są próbkami liczb losowych, spodziewalibyśmy się, że korelacja X i XY wyniesie 0,7

Próbowałem tego w R i wydaje się, że tak jest:

x <- rnorm(1000000, 10, 2)
y <- rnorm(1000000, 10, 2)
cor(x, x-y)

xu <- sample(1:100, size = 1000000, replace = T)
yu <- sample(1:100, size = 1000000, replace = T)
cor(xu, xu-yu)

Dlaczego? Jaka jest teoria?

nostock
źródło
Jaką część chcesz wyjaśnienia? Czy chcesz po prostu uproszczonego równania korelacji wynikającego ze znanej korelacji między xiy, a kowariancji między x i xy? A może po prostu chcesz wiedzieć, dlaczego w ogóle jest tu jakaś kowariancja?
John
Czy to prawda dla każdego i ? Załóżmy, że i są nieskorelowane i niech . Podejrzewam, że nie będzie skorelowany z . XYXZY=XZXXY
Henry

Odpowiedzi:

69

Jeśli i są nieskorelowanymi zmiennymi losowymi o jednakowej wariancji , to mamy W konsekwencjiXYσ2

var(XY)=var(X)+var(Y)=var(X)+var(Y)=2σ2,cov(X,XY)=cov(X,X)cov(X,Y)bilinearity of covariance operator=var(X)00 because X and Y are uncorrelated=σ2.
ρX,XY=cov(X,XY)var(X)var(XY)=σ2σ22σ2=12.
Kiedy więc znajdziesz przykładowa korelacja i dla dużego zestawu danych pobrane z populacji o tych właściwościach, która zawiera „liczby losowe” jako szczególny przypadek, wynik jest zwykle zbliżony do wartości korelacji populacji
i=1n(xix¯)((xiyi)(x¯y¯))i=1n(xix¯)2i=1n((xiyi)(x¯y¯))2
xxy{(xi,yi):1in}120.7071
Dilip Sarwate
źródło
Czy mógłbyś wyjaśnić nieco więcej, jakcov(X,X)-cov(X,Y)=s^2
nostock
5
cov (X, X) to inna nazwa dla var (X). cov (X, Y) = 0, ponieważ zakłada się, że X i Y są nieskorelowane (stąd kowariancja = 0).
Dilip Sarwate,
58

Wyjaśnienie geometryczno-statystyczne.

Wyobraź sobie, że tworzysz wykres rozrzutu „na lewą stronę”, w którym podmiotamiosie, a zmienne i są punktami . Nazywa się to wykresem przestrzeni tematycznej (w przeciwieństwie do zwykłego wykresu zmiennej przestrzeni ). Ponieważ do wykreślenia są tylko 2 punkty, wszystkie wymiary w takim miejscu, z wyjątkiem dowolnych dwóch dowolnych wymiarów, które są w stanie obsłużyć 2 punkty plus początek, są zbędne i można je bezpiecznie upuścić. I tak zostaje nam samolot. Rysujemy strzałki wektora od początku do punktów: są to nasze zmienne i jako wektory w przestrzeni tematycznej danych.n 2 XYXY

Teraz, jeśli zmienne zostały wyśrodkowane, wówczas w przestrzeni przedmiotowej cosinus kąta między ich wektorami jest ich współczynnikiem korelacji . Na poniżej wektory i są ortogonalne: ich . Brak korelacji był warunkiem wstępnym nakreślonym przez @Dilip w ich odpowiedzi.XYr=0

Również w przypadku zmiennych wyśrodkowanych ich długości wektorowe w przestrzeni przedmiotowej są odchyleniami standardowymi . Na i są równej długości - równe wariancje były również warunkiem wstępnym @Dilip.XY

Aby narysować zmienną lub zmienną używamy po prostu dodawania lub odejmowania wektorów, o których zapomnieliśmy od czasów szkoły (przenieś wektor Y na koniec wektora X i odwróć kierunek w przypadku odejmowania - pokazuje to szara strzałka na zdjęciu - następnie narysuj wektor w miejscu, w którym wskazuje szara strzałka).XYX+Y

Staje się bardzo jasne, że długość wektorów lub (odchylenie standardowe tych zmiennych) jest według twierdzenia Pitagorasa , a kąt między a lub wynosi 45 stopni, których cosinus - korelacja - wynosiXYX+Y2σ2XXYX+Y0.707...

wprowadź opis zdjęcia tutaj

ttnphns
źródło
4
Duży +1 za podzielenie się tym podejściem.
whuber
(+1) To bardzo fajny sposób na przedstawienie tego!
Matt Krause,
Ahh ... zdjęcia! (+1) Dobra robota. :-)
kardynał
11

Uważam, że tutaj również istnieje prosta intuicja oparta na symetrii. Ponieważ X i Y mają te same rozkłady i kowariancję 0, związek X ± Y z X powinien „wyjaśnić” połowę wariancji X ± Y; drugą połowę należy wyjaśnić za pomocą Y. Zatem R 2 powinno wynosić 1/2, co oznacza, że ​​R wynosi 1 / √2 ≈ 0,707.

denn333
źródło
Wydaje się to być niezłą intuicją, ale zauważ, że jeśli , standardowym sposobem pisania byłoby , a nie co może mylić niektórych ludzi, nawet jeśli są algebraicznie równoważne. r2=12r1/21/2
gung - Przywróć Monikę
Nie, to naprawdę nie jest bardziej standardowe. (Jeśli potrzebujesz dowodów, spójrz na najwyższą odpowiedź. 38 osób, które już na nią głosowały, nie spiera się z tym samym zapisem.)
denn333
Jestem jednym z tych 38 ;-). Pytanie brzmi: co ktoś, kogo algebra jest dość słaba, będzie najłatwiejszy do naśladowania? Jeśli , łatwiej jest zauważyć, że . r2=1/2r=1/2
gung - Przywróć Monikę
3

Oto prosty sposób na zastanowienie się, dlaczego w ogóle istnieje tutaj korelacja.

Wyobraź sobie, co się dzieje po odjęciu dwóch rozkładów. Jeśli wartość x jest niska, wówczas wartość średnia x - ybędzie niższa niż w przypadku, gdy wartość x jest wysoka. Wraz ze wzrostem x wzrasta x - yśrednio, a zatem dodatnia korelacja.

Jan
źródło
4
Nie sądzę, aby twoje stwierdzenie było zawsze prawdziwe „Zawsze będzie korelacja między dwoma losowymi rozkładami, gdy istnieje związek matematyczny”. np. x <- rnorm(1e6, 0,1) y <- rnorm(1e6, 0,1) $cor((x-y)^2,x-y)$
curious_cat
4
@curious_cat: Lub, być może jeszcze bardziej sugestywny, porzuć ycałkowicie. :-)
kardynał