Zaczerpnięte z praktycznych statystyk badań medycznych, gdzie Douglas Altman pisze na stronie 285:
... dla dowolnych dwóch wielkości X i Y, X będzie skorelowane z XY. Rzeczywiście, nawet jeśli X i Y są próbkami liczb losowych, spodziewalibyśmy się, że korelacja X i XY wyniesie 0,7
Próbowałem tego w R i wydaje się, że tak jest:
x <- rnorm(1000000, 10, 2)
y <- rnorm(1000000, 10, 2)
cor(x, x-y)
xu <- sample(1:100, size = 1000000, replace = T)
yu <- sample(1:100, size = 1000000, replace = T)
cor(xu, xu-yu)
Dlaczego? Jaka jest teoria?
correlation
random-variable
intuition
nostock
źródło
źródło
Odpowiedzi:
Jeśli i są nieskorelowanymi zmiennymi losowymi o jednakowej wariancji , to mamy W konsekwencjiX Y σ2
źródło
cov(X,X)-cov(X,Y)=s^2
Wyjaśnienie geometryczno-statystyczne.
Wyobraź sobie, że tworzysz wykres rozrzutu „na lewą stronę”, w którym podmiotami są osie, a zmienne i są punktami . Nazywa się to wykresem przestrzeni tematycznej (w przeciwieństwie do zwykłego wykresu zmiennej przestrzeni ). Ponieważ do wykreślenia są tylko 2 punkty, wszystkie wymiary w takim miejscu, z wyjątkiem dowolnych dwóch dowolnych wymiarów, które są w stanie obsłużyć 2 punkty plus początek, są zbędne i można je bezpiecznie upuścić. I tak zostaje nam samolot. Rysujemy strzałki wektora od początku do punktów: są to nasze zmienne i jako wektory w przestrzeni tematycznej danych.n 2 X Y X Y
Teraz, jeśli zmienne zostały wyśrodkowane, wówczas w przestrzeni przedmiotowej cosinus kąta między ich wektorami jest ich współczynnikiem korelacji . Na poniżej wektory i są ortogonalne: ich . Brak korelacji był warunkiem wstępnym nakreślonym przez @Dilip w ich odpowiedzi.X Y r=0
Również w przypadku zmiennych wyśrodkowanych ich długości wektorowe w przestrzeni przedmiotowej są odchyleniami standardowymi . Na i są równej długości - równe wariancje były również warunkiem wstępnym @Dilip.X Y
Aby narysować zmienną lub zmienną używamy po prostu dodawania lub odejmowania wektorów, o których zapomnieliśmy od czasów szkoły (przenieś wektor Y na koniec wektora X i odwróć kierunek w przypadku odejmowania - pokazuje to szara strzałka na zdjęciu - następnie narysuj wektor w miejscu, w którym wskazuje szara strzałka).X−Y X+Y
Staje się bardzo jasne, że długość wektorów lub (odchylenie standardowe tych zmiennych) jest według twierdzenia Pitagorasa , a kąt między a lub wynosi 45 stopni, których cosinus - korelacja - wynosiX−Y X+Y 2σ2−−−√ X X−Y X+Y 0.707...
źródło
Uważam, że tutaj również istnieje prosta intuicja oparta na symetrii. Ponieważ X i Y mają te same rozkłady i kowariancję 0, związek X ± Y z X powinien „wyjaśnić” połowę wariancji X ± Y; drugą połowę należy wyjaśnić za pomocą Y. Zatem R 2 powinno wynosić 1/2, co oznacza, że R wynosi 1 / √2 ≈ 0,707.
źródło
Oto prosty sposób na zastanowienie się, dlaczego w ogóle istnieje tutaj korelacja.
Wyobraź sobie, co się dzieje po odjęciu dwóch rozkładów. Jeśli wartość x jest niska, wówczas wartość średnia
x - y
będzie niższa niż w przypadku, gdy wartość x jest wysoka. Wraz ze wzrostem x wzrastax - y
średnio, a zatem dodatnia korelacja.źródło
x <- rnorm(1e6, 0,1) y <- rnorm(1e6, 0,1) $cor((x-y)^2,x-y)
$y
całkowicie. :-)