Dowód kurczenia się współczynników za pomocą regresji kalenicowej poprzez „rozkład widmowy”

20

Zrozumiałem, w jaki sposób regresja kalenicy zmniejsza geometrycznie współczynniki do zera. Co więcej, wiem, jak to udowodnić w specjalnym „przypadku ortonormalnym”, ale jestem zdezorientowany, jak to działa w przypadku ogólnym poprzez „rozkład widmowy”.

jeza
źródło
4
Powiedziałeś, że jesteś zdezorientowany, ale jakie jest twoje pytanie?
whuber

Odpowiedzi:

30

Wydaje się, że pytanie wymaga zademonstrowania, że ​​regresja Ridge'a zmniejsza szacunki współczynnika do zera przy użyciu rozkładu widmowego. Rozkład widmowy można rozumieć jako łatwą konsekwencję rozkładu wartości osobliwych (SVD). Dlatego ten post zaczyna się od SVD. Wyjaśnia to w prosty sposób, a następnie ilustruje ważnymi aplikacjami. Następnie zapewnia żądaną (algebraiczną) demonstrację. (Algebra jest oczywiście identyczna z demonstracją geometryczną; jest po prostu ułożona w innym języku).

Oryginalne źródło tej odpowiedzi można znaleźć w notatkach z kursu regresji . Ta wersja poprawia drobne błędy.


Czym jest SVD

Dowolną macierz X , przy p n , można zapisać X = U D V gdzien×pXpn

X=UDV
  1. n × pU jest macierzą .n×p

    • Kolumny mają długość .1U1
    • Kolumny są wzajemnie ortogonalne.U
    • Są one nazywane główne komponenty z .X
  2. jestmacierzą p × p .Vp×p

    • Kolumny mają długość 1 .V1
    • Kolumny są wzajemnie prostopadłe.V
    • Sprawia to, że jest obrót o R p .VRp
  3. jestdiagonalnąmacierzą p × p .D p×p

    • Elementy ukośne nie są ujemne. Są to pojedyncze wartości z X .d11,d22,,dppX
    • Jeśli chcemy, możemy zamówić je od największego do najmniejszego.

Kryteria (1) i (2) twierdzą, że zarówno jak i V są matrycami ortonormalnymi . Można je starannie podsumować według warunkówUV

UU=1p, VV=1p.

W konsekwencji (że oznacza obrót), V V = również 1 p . Zostanie to wykorzystane w poniższej pochodnej regresji Ridge.VVV=1p

Co to dla nas robi

Może uprościć formuły. Działa to zarówno algebraicznie, jak i koncepcyjnie. Oto kilka przykładów.

Równania normalne

Rozważ regresję której, jak zwykle, ε są niezależne i identycznie rozmieszczone zgodnie z prawem, które ma zerowe oczekiwanie i skończoną wariancję σ 2 . Najmniej roztwór kwadratów przez zwykłą równań β = ( X ' X ) - 1 X ' Y . Zastosowanie SVD i uproszczenie powstałego bałaganu algebraicznego (co jest łatwe) zapewnia dobry wgląd:y=Xβ+εεσ2

β^=(XX)1Xy.

(XX)1X=((UDV)(UDV))1(UDV)=(VDUUDV)1(VDU)=VD2VVDU=VD1U.

Jedyna różnica między tym a polega na tym, że stosowane są odwrotności elementów D ! Innymi słowy, „równanie” y = X β rozwiązuje się przez „odwrócenie” X : ta pseudo-inwersja odwraca obroty U i V (jedynie przez ich transpozycję) i cofa mnożenie (reprezentowane przez D ) oddzielnie w każdej zasadzie kierunek.X=VDUDy=XβXUVD

Dla odniesienia przyszłość zauważyć, że „obracać” przewidywany β są liniowe kombinacje „obracać” odpowiedzi U ' y . Współczynniki są odwrotnymi (dodatnimi) diagonalnymi elementami D , równymi d - 1 i i .Vβ^UyDdii1

Kowariancja szacunków współczynnika

Przypomnijmy, że kowariancja oszacowań jest Używając SVD, staje się to σ 2 ( V D 2 V ) - 1 = σ 2 V D - 2 V . Innymi słowy, kowariancja działa jak zmienna ortogonalna k , każda z wariancjami d 2 i i

Cov(β^)=σ2(XX)1.
σ2(VD2V)1=σ2VD2V.
k dii2, które zostały obrócone w .Rk

Matryca Hat

H=X(XX)1X.
H=(UDV)(VD1U)=UU.

Analiza własna (rozkład widmowy)

XX=VDUUDV=VD2V
XX=UDVVDU=UD2U,
  • XXXX
  • VXX
  • UXX

SVD może diagnozować i rozwiązywać problemy kolinearności.

Zbliżanie regresorów

UDVUy

Regresja Ridge

XyXλ>0

β^R=(XX+λ)1Xy=(VD2V+λ1p)1VDUy=(VD2V+λVV)1VDUy=(V(D2+λ)V)1VDUy=V(D2+λ)1VVDUy=V(D2+λ)1DUy.

β^D1=D2D(D2+λ)1DD2/(D2+λ)λ>0


Vβ^RUydii1dii2/(dii2+λ)λβ^R

dii1

Whuber
źródło
1
@Glen_b To dobra uwaga: musiałem wyraźnie powiedzieć, jaki ułamek rozważałem! Naprawię to.
whuber
1
UU=1pU1. (2)VV1=1VV=1pVV1(V1)(V1)=1pV1=VVV=(V)V=1p
1
@Vimal Dziękujemy za dobrą sugestię. W sekcji „Równania normalne” zamieściłem wyjaśnienie, w którym przedstawiono model regresji.
whuber
1
X
VDU=X=X=UDV.
U=VX
1
y^