Ten post dotyczy dwuwymiarowego modelu regresji liniowej, . Zawsze brałem pod uwagę podział sumy kwadratów (SSTO) na sumę kwadratów dla błędu (SSE) i sumę kwadratów dla modelu (SSR) na wiarę, ale kiedy naprawdę zacząłem o tym myśleć, nie rozumiem dlaczego to działa ...
Część I nie rozumiem:
: Obserwowana wartość y
: Średnia ze wszystkich zaobserwowanych s
: Dopasowana / przewidywana wartość y dla danej obserwacji x
: Resztkowe / błąd (jeśli do kwadratu i sumy dla wszystkich obserwacji jest to SSE)
: Jak bardzo dopasowana wartość modelu różni się od średniej (jeśli do kwadratu i sumy dla wszystkich obserwacji jest to SSR)
: Jak bardzo zaobserwowana wartość różni się od średniej (jeśli jest sprawdzana i sumowana dla wszystkich obserwacji, jest to SSTO).
Rozumiem, dlaczego dla pojedynczej obserwacji, nic nie podnosząc kwadratu, . I rozumiem, dlaczego, jeśli chcesz dodać rzeczy do wszystkich obserwacji, musisz je wyrównać, bo w przeciwnym razie sumują się do zera.
Nie rozumiem tylko, dlaczego (np. SSTO = SSR + SSE). Wydaje się, że jeśli masz sytuację, w której, następnie , nie . Dlaczego tak nie jest w tym przypadku?
źródło
Odpowiedzi:
Koncepcyjnie chodzi o to, żeBC=0 ponieważ B i C są ortogonalne (tj. są prostopadłe).
W kontekście regresji liniowej tutaj resztyϵi=yi−y^i są prostopadłe do poniższej prognozy y^i−y¯ . Prognoza z regresji liniowej tworzy rozkład ortogonalnyy w podobnym sensie jak (3,4)=(3,0)+(0,4) jest rozkładem ortogonalnym.
Wersja Algebry Liniowej:
Pozwolić:
Regresja liniowa (z uwzględnieniem stałej) rozkłada na sumę dwóch wektorów: prognozy i resztkowegoz z^ ϵ
Niech oznacza iloczyn skalarny . (Ogólniej, może być iloczynem wewnętrznym .)⟨.,.⟩ ⟨X,Y⟩ E[XY]
Tam, gdzie ostatni wiersz wynika z faktu, że (tj. Że i są ortogonalne). Możesz udowodnić, że i są ortogonalne w oparciu o to, jak zwykła regresja metodą najmniejszych kwadratów konstruuje .⟨z^,ϵ⟩=0 z^ ϵ=z−z^ z^ ϵ z^
Zauważ, że jak zdefiniowałem jako iloczyn kropkowy, to po prostu inny sposób pisania (tj. SSTO = SSR + SSE)⟨.,.⟩ ⟨z,z⟩=⟨z^,z^⟩+⟨ϵ,ϵ⟩ ∑i(yi−y¯)2=∑i(y^i−y¯)2+∑i(yi−y^i)2
źródło
Cały punkt pokazuje, że niektóre wektory są ortogonalne, a następnie używają twierdzenia Pitagorasa.
Rozważmy regresję liniową wielowymiarową . Wiemy, że estymatorem OLS jest . Teraz rozważ oszacowanieY=Xβ+ϵ β^=(XtX)−1XtY
gdzie jest ortogonalną macierzą projekcji Y na . Teraz mamyH S(X)
gdzie jest macierzą rzutowania na ortogonalne uzupełnienie którym jest . Wiemy zatem, że i są ortogonalne.(I−H) S(X) S⊥(X) Y−Y^ Y^
Teraz rozważ podmodelY=X0β0+ϵ
gdzie i mamy estymator OLS i oszacowanie i z macierzą projekcji na . Podobnie mamy, że i są ortogonalne. I terazX=[X0|X1] β0^ Y0^ H0 S(X0) Y−Y0^ Y0^
gdzie znowu jest ortogonalną macierzą projekcji na dopełnieniu która jest . Mamy więc ortogonalność i . Tak więc w końcu mamy(I−H0) S(X0) S⊥(X0) Y^−Y0^ Y0^
i wreszcie||Y−Y0^||2=||Y−Y^||2+||Y^−Y0^||2
Wreszcie, średnia jest po prostu , biorąc pod uwagę model zerowy .Y¯ Y0^ Y=β0+e
źródło