Dlaczego iloczyn współczynników regresji dwuwymiarowej linii on- i -on- równy kwadratowi korelacji?

11

Tam, gdzie model regresji z a , który ma współczynnik korelacji .a = 1,6 b = 0,4 r = 0,60302Y=a+bXa=1.6b=0.4r=0.60302

Jeżeli i są wówczas zamienione, a Równanie , gdzie i , to także ma wartość .Y X = c + d Y c = 0,4545 d = 0,9091 r 0,60302XYX=c+dYc=0.4545d=0.9091r0.60302

Mam nadzieję, że ktoś może wyjaśnić, dlaczego ma również wartość . 0,60302(d×b)0.50.60302

Mikrofon
źródło

Odpowiedzi:

17

b=rSDy/SDx i , więc . b × d = r 2d=rSDx/SDyb×d=r2

Dotknęłoby tego wiele podręczników statystycznych; Lubię Freedman i in., Statistics . Zobacz także tutaj i ten artykuł w Wikipedii .

Karl
źródło
10

Spójrz na Trzynaście sposobów spojrzenia na współczynnik korelacji - a szczególnie sposoby 3, 4, 5 będą dla ciebie najbardziej interesujące.

Ciekawy
źródło
2
To prawdopodobnie powinien być komentarz. Pamiętaj, że link utracił ważność. Zaktualizowałem link i podałem pełny cytat. Czy możesz opracować lub podać jakieś dodatkowe informacje, aby były one nadal cenne, nawet jeśli link ponownie zniknie?
Gung - Przywróć Monikę
2
Artykuł Rodgers i Nicewander został streszczony na naszej stronie pod adresem stats.stackexchange.com/q/70969/22228 .
whuber
3

Przypomnij sobie, że definiuje wiele tekstów wprowadzających

Sxy=i=1n(xix¯)(yiy¯)

Następnie, ustawiając jako , mamy i podobnie .x S x x = n i = 1 ( x i - ˉ x ) 2 S y y = n i = 1 ( y i - ˉ y ) 2yxSxx=i=1n(xix¯)2Syy=i=1n(yiy¯)2

Wzór na współczynnik korelacji , nachylenie -on- regresji (swoją ) i nachylenie -on- regresji (swoją ) są często stosowane jako:y x b x y dryxbxyd

(1)r=SxySxxSyy(2)β^y on x=SxySxx(3)β^x on y=SxySyy

Następnie pomnożenie i wyraźnie daje kwadrat :(2)(3)(1)

β^y on xβ^x on y=Sxy2SxxSyy=r2

Alternatywnie, liczniki i mianowniki ułamków w , i są często dzielone przez lub tak że rzeczy są ujęte w zakresie próbek lub szacunkowych wariancji i kowariancji. Na przykład z szacowany współczynnik korelacji jest tylko szacunkową kowariancją, skalowaną przez szacowane odchylenia standardowe:(1)(2)(3)n(n1)(1)

(4)r=Corr^(X,Y)=Cov^(X,Y)SD(X)^SD(Y)^(5)β^y on x=Cov^(X,Y)Var(X)^(6)β^x on y=Cov^(X,Y)Var(Y)^

Następnie natychmiast znaleźć z pomnożenia i , które(5)(6)

β^y on xβ^x on y=Cov^(X,Y)2Var(X)^Var(Y)^=(Cov^(X,Y)SD(X)^SD(Y)^)2=r2

Zamiast tego moglibyśmy zmienić układ aby zapisać kowariancję jako korelację „przeskalowaną”:(4)

(7)Cov^(X,Y)=rSD(X)^SD(Y)^

Następnie, podstawiając w i , moglibyśmy przepisać współczynniki regresji jako i . Pomnożenie ich razem spowodowałoby również , i to jest rozwiązanie @ Karla. Zapisanie nachyleń w ten sposób pomaga wyjaśnić, w jaki sposób możemy postrzegać współczynnik korelacji jako znormalizowane nachylenie regresji .(7)(5)(6)β^y on x=rSD^(y)SD^(x)β^x on y=rSD^(x)SD^(y)r2


Na koniec zauważ, że w twoim przypadku ale było to spowodowane twoją korelacją było pozytywne. Jeśli twoja korelacja była ujemna, musiałbyś wziąć ujemny pierwiastek.r=bd=β^y on xβ^x on y

Wypracowanie czy korelacja jest dodatnia lub ujemna, po prostu trzeba uważać znak (plus lub minus) swojego współczynnika regresji - to nie kwestia czy nie patrzysz na -on-0 lub -on- ponieważ ich znaki będą takie same. Możesz więc użyć wzoru:x x yyxxy

r=sgn(β^y on x)β^y on xβ^x on y

gdzie jest funkcją signum , tj. wynosi jeśli nachylenie jest dodatnie, a jeśli nachylenie jest ujemne.+ 1 - 1sgn+11

Silverfish
źródło
1
Może się okazać, że moja odpowiedź jest interesująca, nawet jeśli nie odnosi się wprost do zadanego tutaj pytania.
Dilip Sarwate