Równoważność korelacji próbki i statystyki R dla prostej regresji liniowej

10

Często uważa się, że kwadrat próbki korelacji r2 jest równoważne R2 współczynnik korelacji dla prostej regresji liniowej. Nie byłem w stanie sam tego wykazać i doceniłbym pełny dowód tego faktu.

edwardsm88
źródło
1
Jeśli jest to pytanie do samodzielnej nauki, dodaj odpowiedni tag.
Andy
Pytanie to dotyczy również pytania, dlaczego R2=r2 .
Silverfish,

Odpowiedzi:

8

Wydaje się, że pewne zmiany w notacji: w prostych regresji liniowej, jakie zazwyczaj postrzegane wyrażenie „próbka” o współczynnik korelacji symbolu jako odniesienie do korelacji między obserwowaną x i y wartości. To jest zapis, który przyjąłem dla tej odpowiedzi. Stwierdziliśmy też, że ten sam zwrot i symbol odnosi się do zależności między obserwowaną Y i dopasowano Y ; w mojej odpowiedzi mam, o których mowa to jako „stwardnienie współczynnika korelacji” i użył symbolu R . Ta odpowiedź dotyczy tego, dlaczego współczynnik determinacji jest zarówno kwadratem r, jak i kwadratem Rrxyyy^RrR, więc nie powinno mieć znaczenia, które użycie było zamierzone.

Wynik następuje w jednej linii algebry, gdy kilka prostych faktów na temat korelacji i znaczenia R.r2R ustaleniu , więc możesz chcieć przejść do równania w ramce. Zakładam, że nie musimy udowadniać podstawowych właściwości kowariancji i wariancji, w szczególności:

Var ( a X + b ) = a 2 Var (

Cov(aX+b,Y)=aCov(X,Y)
Var(aX+b)=a2Var(X)

Zauważ, że to drugie można wyprowadzić z pierwszego, gdy wiemy, że kowariancja jest symetryczna i że . Stąd wywodzimy kolejny podstawowy fakt, dotyczący korelacji. Dla 0 , i tak długo jak X i Y.Var(X)=Cov(X,X)a0XY mają niezerowe wariancji,

Cor(aX+b,Y)=Cov(aX+b,Y)Var(aX+b)Var(Y)=aa2×Cov(X,Y)Var(X)Var(Y)Cor(aX+b,Y)=sgn(a)Cor(X,Y)

Tutaj jest znakiem lub funkcją znaku : jego wartość to sgn ( a ) = + 1, jeśli a > 0, i sgn ( a ) = - 1, jeśli a < 0 . Prawdą jest również, że sgn ( a ) = 0, jeśli a = 0 , ale ten przypadek nas nie dotyczy: a X + b a X + b )sgn(a)sgn(a)=+1a>0sgn(a)=1a<0sgn(a)=0a=0aX+b byłaby stała, więc w mianowniku i nie możemy obliczyć korelacji. Argumenty symetrii pozwalają uogólnić ten wynikVar(aX+b)=0a,c0 :

Cor(aX+b,cY+d)=sgn(a)sgn(c)Cor(X,Y)

Nie potrzebujemy tej bardziej ogólnej formuły, aby odpowiedzieć na bieżące pytanie, ale dołączam ją, aby podkreślić geometrię sytuacji: po prostu stwierdza, że ​​korelacja pozostaje niezmieniona, gdy zmienna jest skalowana lub tłumaczona, ale odwraca znak, gdy zmienna jest odzwierciedlone.

Potrzebujemy jeszcze jednego faktu: w przypadku modelu liniowego zawierającego stały składnik współczynnik determinacji jest kwadratem wielokrotnego współczynnika korelacji R , który jest korelacją między obserwowanymi odpowiedziami Y a dopasowanymi wartościami modeluR2RY . Odnosi się to zarówno do wielokrotności i prostych regresji, ale niech nam ograniczyć naszą uwagę na prosty model liniowy Y = p 0+ P 1X. Wynik wynika z obserwacji, że Y jest skalowany, ewentualnie odbitym, a przetłumaczonej wersjiX:Y^Y^=β^0+β^1XY^X

R=Cor(Y^,Y)=Cor(β^0+β^1X,Y)=sgn(β^1)Cor(X,Y)=sgn(β^1)r

Zatem gdzie znak pasuje do znaku szacowanego nachylenia, co gwarantuje, że R nie będzie ujemny. Wyraźnie R 2 = r 2 .R=±rRR2=r2

Poprzedni argument został uproszczony, ponieważ nie uwzględniono sum kwadratów. Aby to osiągnąć, że pomijane szczegóły dotyczące relacji między , które zwykle myśleć pod względem sumy kwadratów, oraz R , do którego myślenia o korelacji montowane i obserwowanych reakcji. Symbole sprawiają, że relacja R 2 = ( R ) 2 wydaje się tautologiczna, ale tak nie jest, a relacja rozpada się, jeśli w modelu nie ma terminu przecięcia! Ja pokrótce szkic geometrycznej argumentu o związku między R i R 2R2RR2=(R)2RR2 pobranej z innego pytanie: schemat jest narysowany w (dla stałego składnika) i wektor obserwacji zmiennej objaśniającej, więc przestrzeń kolumny jest dwuwymiarowa.n-wymiarowa przestrzeń tematyczna , więc każda oś (nie pokazana) reprezentuje pojedynczą jednostkę obserwacji, a zmienne są pokazane jako wektory. Kolumny macierzy projektowej to wektor 1 nX1n

Wektory w przestrzeni przedmiotowej regresji wielokrotnej

Zainstalowane Y jest prostopadły występ obserwowanego Y na powierzchni kolumny X . Oznacza to, że wektor reszt e = Y - Y jest prostopadła do płaskich, a tym samym do 1 n . Iloczyn punktowy wynosi 0 = 1 ne = n i = 1 e i . Gdy reszty sumują się do zera, a Y i = ^ Y i + e i , to nY^YXe=yy^1n0=1ne=i=1neiYi=Yi^+ei tak, że oba montowane i obserwowane reakcje mają średnią ˉ Y . Linie przerywane na schemacie,i=1nYi=i=1nYi^Y¯ i Y - °° Y 1 n , są zatemwyśrodkowanewektory do obserwowanych i dopasowano reakcji, oraz cosinusa kąta θ między nimi jest ich zależność RYY¯1nY^Y¯1nθR .

Trójkąt wektory te tworzą wektorem reszt się pod kątem prostym od Y - ˂ Y 1 n leży w płaskim, ale eY^Y¯1ne jest prostopadła do niej. Stosowanie Pitagorasa:

YY¯1n2=YY^2+Y^Y¯1n2

Jest to tylko rozkład sum kwadratów, . Konwencjonalny wzór na współczynnik determinacji wynosi 1 - S S resztkowySStotal=SSresidual+SSregression , która w tym trójkąta1-sin2θ=cos2θtak jest rzeczywiście kwadratR. Możesz być bardziej zaznajomiony ze wzoremR2= regresja SS.1SSresidualSStotal1sin2θ=cos2θR , co natychmiast dajecos2θ, ale zauważ, że1-SS jest resztąR2=SSregressionSStotalcos2θ jest bardziej ogólny i (jak właśnie widzieliśmy) zmniejszy się do regresji SS.1SSresidualSStotal jeśli model zawiera stały składnik.SSregressionSStotal

Silverfish
źródło
+1 dzięki za wysiłki w tworzeniu ładnej matematyki i wykresu !!
Haitao Du
4

R2

R2=V^(y^i)V^(yi)=1/(N1)i=1N(y^iy¯)21/(N1)i=1N(yiy¯)2=ESSTSS
The squared sample correlation coefficient:
r2(yi,y^i)=(i=1N(yiy¯)(y^iy¯))2(i=1N(yiy¯)2)(i=1N(y^iy¯)2)
is equivalent, as it is easily verified using:
V^(yi)=V^(y^i)+V^(ei)
(see Verbeek, §2.4)
Sergio
źródło
Could you add some more details. I've been trying to prove this but with no sucess...
An old man in the sea.