Regresja liniowa: * Dlaczego * możesz podzielić sumy kwadratów?

9

Ten post dotyczy dwuwymiarowego modelu regresji liniowej, Yi=β0+β1xi. Zawsze brałem pod uwagę podział sumy kwadratów (SSTO) na sumę kwadratów dla błędu (SSE) i sumę kwadratów dla modelu (SSR) na wiarę, ale kiedy naprawdę zacząłem o tym myśleć, nie rozumiem dlaczego to działa ...

Część I nie rozumiem:

yi: Obserwowana wartość y

y¯: Średnia ze wszystkich zaobserwowanych yis

y^i: Dopasowana / przewidywana wartość y dla danej obserwacji x

yiy^i: Resztkowe / błąd (jeśli do kwadratu i sumy dla wszystkich obserwacji jest to SSE)

y^iy¯: Jak bardzo dopasowana wartość modelu różni się od średniej (jeśli do kwadratu i sumy dla wszystkich obserwacji jest to SSR)

yiy¯: Jak bardzo zaobserwowana wartość różni się od średniej (jeśli jest sprawdzana i sumowana dla wszystkich obserwacji, jest to SSTO).

Rozumiem, dlaczego dla pojedynczej obserwacji, nic nie podnosząc kwadratu, (yiy¯)=(y^iy¯)+(yiy^i). I rozumiem, dlaczego, jeśli chcesz dodać rzeczy do wszystkich obserwacji, musisz je wyrównać, bo w przeciwnym razie sumują się do zera.

Nie rozumiem tylko, dlaczego (yiy¯)2=(y^iy¯)2+(yiy^i)2(np. SSTO = SSR + SSE). Wydaje się, że jeśli masz sytuację, w którejA=B+C, następnie A2=B2+2BC+C2, nie A2=B2+C2. Dlaczego tak nie jest w tym przypadku?

bluemouse
źródło
5
W ostatnim akapicie pominąłeś podsumowanie. SST = SSR + SSE to sumai, ale twoja równość, którą napisałeś bezpośrednio przed nią, nie jest tak naprawdę prawdą bez znaku sumowania.
Glen_b
1
W ostatnim akapicie nie chcesz (tj. SSTO = SSR + SSE) nie (np. SSTO = SSR + SSE). „eg” to skrót od łacińskiego zwrotu „ exempli gratia ” lub „na przykład” w języku angielskim. „ie” jest skrótem od „ id est ” i można je odczytać w języku angielskim jako „to znaczy”.
Matthew Gunn

Odpowiedzi:

9

Wydaje się, że jeśli masz sytuację, w której A=B+C, następnie A2=B2+2BC+C2, nie A2=B2+C2. Dlaczego tak nie jest w tym przypadku?

Koncepcyjnie chodzi o to, że BC=0 ponieważ B i C są ortogonalne (tj. są prostopadłe).


W kontekście regresji liniowej tutaj reszty ϵi=yiy^i są prostopadłe do poniższej prognozy y^iy¯. Prognoza z regresji liniowej tworzy rozkład ortogonalnyy w podobnym sensie jak (3,4)=(3,0)+(0,4) jest rozkładem ortogonalnym.

Wersja Algebry Liniowej:

Pozwolić:

z=[y1y¯y2y¯yny¯]z^=[y^1y¯y^2y¯y^ny¯]ϵ=[y1y^1y2y^2yny^n]=zz^

Regresja liniowa (z uwzględnieniem stałej) rozkłada na sumę dwóch wektorów: prognozy i resztkowegozz^ϵ

z=z^+ϵ

Niech oznacza iloczyn skalarny . (Ogólniej, może być iloczynem wewnętrznym .).,.X,Y E[XY]

z,z=z^+ϵ,z^+ϵ=z^,z^+2z^,ϵ+ϵ,ϵ=z^,z^+ϵ,ϵ

Tam, gdzie ostatni wiersz wynika z faktu, że (tj. Że i są ortogonalne). Możesz udowodnić, że i są ortogonalne w oparciu o to, jak zwykła regresja metodą najmniejszych kwadratów konstruuje .z^,ϵ=0z^ϵ=zz^z^ϵz^

z^ jest projekcją liniową o na podprzestrzeni określonej przez liniowe przedziale od się regresorów , itp .... residual jest ortogonalny do całej tej podprzestrzeni, stąd (który leży w zakresie , itd.) ortogonalny do .zx1x2ϵz^x1x2ϵ


Zauważ, że jak zdefiniowałem jako iloczyn kropkowy, to po prostu inny sposób pisania (tj. SSTO = SSR + SSE).,.z,z=z^,z^+ϵ,ϵi(yiy¯)2=i(y^iy¯)2+i(yiy^i)2

Matthew Gunn
źródło
8

Cały punkt pokazuje, że niektóre wektory są ortogonalne, a następnie używają twierdzenia Pitagorasa.

Rozważmy regresję liniową wielowymiarową . Wiemy, że estymatorem OLS jest . Teraz rozważ oszacowanieY=Xβ+ϵβ^=(XtX)1XtY

Y^=Xβ^=X(XtX)1XtY=HY (macierz H nazywana jest również macierzą „hat”)

gdzie jest ortogonalną macierzą projekcji Y na . Teraz mamyHS(X)

YY^=YHY=(IH)Y

gdzie jest macierzą rzutowania na ortogonalne uzupełnienie którym jest . Wiemy zatem, że i są ortogonalne.(IH)S(X)S(X)YY^Y^

Teraz rozważ podmodelY=X0β0+ϵ

gdzie i mamy estymator OLS i oszacowanie i z macierzą projekcji na . Podobnie mamy, że i są ortogonalne. I terazX=[X0|X1]β0^Y0^H0S(X0)YY0^Y0^

Y^Y0^=HYH0Y=HYH0HY=(IH0)HY

gdzie znowu jest ortogonalną macierzą projekcji na dopełnieniu która jest . Mamy więc ortogonalność i . Tak więc w końcu mamy(IH0)S(X0)S(X0)Y^Y0^Y0^

||YY^||2=||Y||2||Y^||2=||YY0^||2+||Y0^||2||Y^Y0^||2||Y0^||2

i wreszcie||YY0^||2=||YY^||2+||Y^Y0^||2

Wreszcie, średnia jest po prostu , biorąc pod uwagę model zerowy .Y¯Y0^Y=β0+e

Łukasz Grad
źródło
Dziękuję za Twoją odpowiedź! Co to jest S () (jak w S (X) w twoim poście)?
bluemouse
S(X) jest podprzestrzenią generowaną przez kolumny macierzyX
Łukasz Grad