Zrozumiałem, w jaki sposób regresja kalenicy zmniejsza geometrycznie współczynniki do zera. Co więcej, wiem, jak to udowodnić w specjalnym „przypadku ortonormalnym”, ale jestem zdezorientowany, jak to działa w przypadku ogólnym poprzez „rozkład widmowy”.
20
Odpowiedzi:
Wydaje się, że pytanie wymaga zademonstrowania, że regresja Ridge'a zmniejsza szacunki współczynnika do zera przy użyciu rozkładu widmowego. Rozkład widmowy można rozumieć jako łatwą konsekwencję rozkładu wartości osobliwych (SVD). Dlatego ten post zaczyna się od SVD. Wyjaśnia to w prosty sposób, a następnie ilustruje ważnymi aplikacjami. Następnie zapewnia żądaną (algebraiczną) demonstrację. (Algebra jest oczywiście identyczna z demonstracją geometryczną; jest po prostu ułożona w innym języku).
Oryginalne źródło tej odpowiedzi można znaleźć w notatkach z kursu regresji . Ta wersja poprawia drobne błędy.
Czym jest SVD
Dowolną macierz X , przy p ≤ n , można zapisać X = U D V ′ gdzien×p X p≤n
n × pU jest macierzą .n×p
jestmacierzą p × p .V p×p
jestdiagonalnąmacierzą p × p .D p×p
Kryteria (1) i (2) twierdzą, że zarówno jak i V są matrycami ortonormalnymi . Można je starannie podsumować według warunkówU V
W konsekwencji (że oznacza obrót), V V ′ = również 1 p . Zostanie to wykorzystane w poniższej pochodnej regresji Ridge.V VV′=1p
Co to dla nas robi
Może uprościć formuły. Działa to zarówno algebraicznie, jak i koncepcyjnie. Oto kilka przykładów.
Równania normalne
Rozważ regresję której, jak zwykle, ε są niezależne i identycznie rozmieszczone zgodnie z prawem, które ma zerowe oczekiwanie i skończoną wariancję σ 2 . Najmniej roztwór kwadratów przez zwykłą równań β = ( X ' X ) - 1 X ' Y . Zastosowanie SVD i uproszczenie powstałego bałaganu algebraicznego (co jest łatwe) zapewnia dobry wgląd:y=Xβ+ε ε σ2
Jedyna różnica między tym a polega na tym, że stosowane są odwrotności elementów D ! Innymi słowy, „równanie” y = X β rozwiązuje się przez „odwrócenie” X : ta pseudo-inwersja odwraca obroty U i V ′ (jedynie przez ich transpozycję) i cofa mnożenie (reprezentowane przez D ) oddzielnie w każdej zasadzie kierunek.X′=VDU′ D y=Xβ X U V′ D
Dla odniesienia przyszłość zauważyć, że „obracać” przewidywany β są liniowe kombinacje „obracać” odpowiedzi U ' y . Współczynniki są odwrotnymi (dodatnimi) diagonalnymi elementami D , równymi d - 1 i i .V′β^ U′y D d−1ii
Kowariancja szacunków współczynnika
Przypomnijmy, że kowariancja oszacowań jest Używając SVD, staje się to σ 2 ( V D 2 V ′ ) - 1 = σ 2 V D - 2 V ′ . Innymi słowy, kowariancja działa jak zmienna ortogonalna k , każda z wariancjami d 2 i i
Matryca Hat
Analiza własna (rozkład widmowy)
SVD może diagnozować i rozwiązywać problemy kolinearności.
Zbliżanie regresorów
Regresja Ridge
źródło