Interpretacja geometryczna wielokrotnego współczynnika korelacji

24

Interesuje mnie geometryczne znaczenie wielokrotnej korelacji R i współczynnik determinacji w regresji lub w notacji wektorowej,R2yi=β1+β2x2,i++βkxk,i+ϵi

y=Xβ+ϵ

Tutaj macierz projektowa ma wierszyXnk kolumn, z których pierwszą jest , wektor 1s, który odpowiada przecięciu .x1=1nβ1

Geometria jest bardziej interesująca w n wymiarowej przestrzeni przedmiotowej niż w wymiarowej przestrzeni zmiennej. Zdefiniuj macierz kapelusza:k

H=X(XX)1X

Jest to rzut ortogonalny na przestrzeń kolumny , tj. Mieszkanie przez początek rozpięte przez wektorów reprezentujących każdą zmienną , z których pierwszy to \ mathbf {1} _n . Następnie \ mathbf {H} rzutuje wektor zaobserwowanych odpowiedzi \ mathbf {y} na swój „cień” na mieszkanie, wektor dopasowanych wartości \ mathbf {\ hat {y}} = \ mathbf {Hy} , a jeśli patrząc wzdłuż ścieżki projekcji widzimy wektor reszt \ mathbf {e} = \ mathbf {y} - \ mathbf {\ hat {y}} tworzy trzecią stronę trójkąta. To powinno zapewnić nam dwie drogi do geometrycznej interpretacji R ^ 2Xx I 1 ń H Y Y = H r e = y - y R 2kxi1nHyy^=Hye=yy^R2:

  1. Kwadrat wielokrotnego współczynnika korelacji, R , który jest zdefiniowany jako korelacja między y i y^ . Będzie to wyglądało geometrycznie jako cosinus kąta.
  2. Pod względem długości wektorów: na przykład SSresidual=i=1nei2=e2 .

Z przyjemnością zobaczyłem krótkie sprawozdanie, które wyjaśnia:

  • Drobne szczegóły dla (1) i (2),
  • Dlaczego (1) i (2) są równoważne,
  • W skrócie, w jaki sposób wgląd geometryczny pozwala nam wizualizować podstawowe właściwości R2 , na przykład dlaczego zmienia się na 1, gdy wariancja szumu spada do 0. (W końcu, jeśli nie możemy intuicyjnie z naszej wizualizacji, to jest to tylko ładne zdjęcie.)

Rozumiem, że jest to prostsze, jeśli zmienne są najpierw wyśrodkowane, co usuwa punkt przecięcia z pytania. Jednak w większości kont podręczników, które wprowadzają regresję wielokrotną, macierz projektowa jest taka, jak to ułożyłem. Oczywiście dobrze jest, jeśli ekspozycja zagłębia się w przestrzeń rozpiętą przez wyśrodkowane zmienne, ale dla wglądu w podręcznikową algebrę liniową bardzo pomocne byłoby odniesienie tego do tego, co dzieje się geometrycznie w nieośrodkowej sytuacji. Naprawdę wnikliwe odpowiedź może wyjaśnić , co dokładnie się uszkodzi geometrycznie gdy termin osią jest odrzucany1 nX - czyli gdy wektor1njest usuwany z zestawu rozpinającego. Nie sądzę, aby ten ostatni punkt można rozwiązać, biorąc pod uwagę tylko wyśrodkowane zmienne.

Silverfish
źródło

Odpowiedzi:

47

Jeśli w modelu występuje stały termin, znajduje się w przestrzeni kolumn (podobnie jak , który przyda się później). Dopasowany jest ortogonalnym rzutem obserwowanego na mieszkanie utworzone przez tę przestrzeń kolumny. Oznacza to, że wektor reszt jest prostopadły do ​​płaskiego, a zatem do . Biorąc pod uwagę iloczyn skalarny, możemy zobaczyć , więc składniki muszą sumować się do zera. Ponieważ dochodzimy do tego X ˉ Y 1 n Y Y E = Y - Y 1 n Σ n i = 1 e ı =0 e Y i = ^ Y I + e I Σ n i = 1 Y I = Σ n i = 1 ^ Y i ˉ Y1nXY¯1nY^Ye=yy^1ni=1nei=0eYi=Yi^+eii=1nYi=i=1nYi^ , aby zarówno dopasowane, jak i zaobserwowane odpowiedzi miały średnią .Y¯

Wektory w przestrzeni przedmiotowej regresji wielokrotnej

Linie przerywane na schemacie reprezentują i , które są wektorami centrowanymi dla zaobserwowanych i dopasowanych odpowiedzi. Cosinusem kąta pomiędzy tymi wektorami będzie zatem korelacja i , która z definicji jest wielokrotnością Współczynnik korelacji . Trójkąt, który te wektory tworzą z wektorem reszt, jest ustawiony pod kątem prostym, ponieważ leży płasko, ale jest do niego ortogonalny. Stąd:Y - ˉ Y 1 n θ Y Y R Y - ˉ Y 1 n eYY¯1nY^Y¯1nθYY^RY^Y¯1ne

R=cos(θ)=adjhyp=Y^Y¯1nYY¯1n

Możemy również zastosować Pitagorasa do trójkąta:

YY¯1n2=YY^2+Y^Y¯1n2

Co może być bardziej znane jako:

i=1n(YiY¯)2=i=1n(YiY^i)2+i=1n(Y^iY¯)2

Jest to rozkład sum kwadratów,SStotal=SSresidual+SSregression .

Standardowa definicja współczynnika determinacji to:

R2=1SSresidualSStotal=1i=1n(yiy^i)2i=1n(yiy¯)2=1YY^2YY¯1n2

Kiedy sumy kwadratów można podzielić, potrzeba pewnej prostej algebry, aby pokazać, że jest to równoważne sformułowaniu „wyjaśniona proporcja wariancji”,

R2=SSregressionSStotal=i=1n(y^iy¯)2i=1n(yiy¯)2=Y^Y¯1n2YY¯1n2

Jest geometryczny sposób patrzenia na to z trójkąta, z minimalną algebrą. Definicja formuły daje a dzięki podstawowej trygonometrii możemy uprościć to do . To jest związek między iR2=1sin2(θ)cos2(θ)R2R .

Zwróć uwagę, jak istotne było, aby w tej analizie dopasowano termin przechwytywania, tak aby znajdował się w przestrzeni kolumny. Bez tego, reszty nie byłyby sumowane do zera, a średnia wartości zabudowanymi nie zbiegła się ze średnią . W takim przypadku nie moglibyśmy narysować trójkąta; sumy kwadratów nie rozłożyłyby się w sposób pitagorejski; nie miały często cytowanego postać ani nie musi być kwadratowy . W tej sytuacji, część oprogramowania (włącznie ) stosuje się inny wzór łącznie .1nYR2SSreg/SStotalRRR2

Silverfish
źródło
1
+1 Bardzo fajny opis i figura. Dziwię się, że ma tylko moją samotną opinię.
ameba mówi Przywróć Monikę
2
+1. Zauważ, że liczba twojej odpowiedzi, z „przestrzenią kolumn X”, Y, Ypredem jako wektorami itp. Jest znana w statystyce wielowymiarowej jako „(zredukowana) reprezentacja przestrzeni tematycznej” ( patrz , z dalszymi linkami tam, gdzie jej użyłem) ).
ttnphns