Dlaczego regresja kalenicowa nie zmniejszy niektórych współczynników do zera jak lasso?

16

Podczas wyjaśniania regresji LASSO często stosuje się schemat rombu i koła. Mówi się, że ponieważ kształt ograniczenia w LASSO jest diamentem, otrzymane rozwiązanie najmniejszych kwadratów może dotykać narożnika diamentu, powodując skurcz jakiejś zmiennej. Jednak w regresji grzbietu, ponieważ jest to okrąg, często nie dotyka osi. Nie mogłem zrozumieć, dlaczego nie może dotknąć osi lub być może ma mniejsze prawdopodobieństwo niż LASSO zmniejszenia niektórych parametrów. Ponadto, dlaczego LASSO i grzbiet mają mniejszą wariancję niż zwykłe najmniejsze kwadraty? Powyżej jest moje rozumienie grzbietu i LASSO i mogę się mylić. Czy ktoś może mi pomóc zrozumieć, dlaczego te dwie metody regresji mają mniejszą wariancję?

użytkownik10024395
źródło
1
Możliwy duplikat Dlaczego Lasso zapewnia wybór zmiennych?
Juho Kokkala,
1
Ok, część wariancji pogrubioną czcionką nie jest duplikatem, przynajmniej tego pytania; więc może to pytanie może być edytowane, aby się na tym skupić.
Juho Kokkala,
Jest to dobrze wyjaśnione na rysunku 3.11 strony web.stanford.edu/~hastie/local.ftp/Springer/OLD/…
@fcop czytam książkę, ale nie do końca rozumiem matematykę
użytkownik10024395
Ale żeby zrozumieć obraz, nie potrzebujesz matematyki?

Odpowiedzi:

26

Dotyczy to wariancji

OLS zapewnia tzw. Najlepszy liniowy bezstronny estymator (NIEBIESKI) . Oznacza to, że jeśli weźmiesz jakikolwiek inny obiektywny estymator, będzie on miał większą wariancję niż rozwiązanie OLS. Dlaczego więc, u licha, powinniśmy brać pod uwagę cokolwiek innego?

Teraz sztuczką z regularyzacją, taką jak lasso lub grzbiet, jest dodanie z kolei pewnych odchyleń w celu zmniejszenia wariancji. Bo kiedy oszacować błąd predykcji jest to kombinacja trzech rzeczy :

mi[(y-fa^(x))2)]=Stronniczość[fa^(x))]2)+Var[fa^(x))]+σ2)
Ostatnia część to błąd nieredukowalny, więc nie mamy nad tym kontroli. Stosując rozwiązanie OLS, błąd systematyczny wynosi zero. Ale może się zdarzyć, że drugi termin jest duży. Dobrym pomysłem może być ( jeśli chcemy dobre przewidywania ) dodanie pewnych stronniczości i, mam nadzieję, zmniejszenie wariancji.

Więc co to jest ? Jest to wariancja wprowadzona w oszacowaniach parametrów w twoim modelu. Model liniowy ma postać y = X β + ϵ ,Var[fa^(x))] W celu uzyskania rozwiązania OLS rozwiązujemy problem minimalizacji arg min β | | y - X β | | 2 To zapewnia rozwiązanie β OLS = ( X , T X ) - 1 X t y problem minimalizacji regresji grzbiet jest podobna: Arg min β | | y - X β | |

y=Xβ+ϵ,ϵN.(0,σ2)ja)
argminβ||y-Xβ||2)
β^OLS=(XT.X)-1XT.y
teraz roztwór staje β kalenicy = ( X t X + λ I ) - 1 X t y więc dodawania tego X I (zwany grzebień) na przekątnej macierzy że inwertowany. Efekt ten jest w macierzy X t X jest to, że „ciągnie” wyznacznikiem macierzy od zera. Zatem po odwróceniu nie otrzymujesz dużych wartości własnych. Ale to prowadzi do kolejnego interesującego faktu, mianowicie, że wariancja oszacowań parametrów staje się niższa.
argminβ||y-Xβ||2)+λ||β||2)λ>0
β^Grzbiet=(XT.X+λja)-1XT.y
λjaXT.X

Nie jestem pewien, czy mogę udzielić bardziej jednoznacznej odpowiedzi. Wszystko to sprowadza się do macierzy kowariancji dla parametrów w modelu i wielkości wartości w tej macierzy kowariancji.

Jako przykład wziąłem regresję grzbietu, ponieważ jest to o wiele łatwiejsze do wyleczenia. Lasso jest znacznie trudniejsze i wciąż trwają badania nad tym tematem.

Te slajdy zawierają więcej informacji, a ten blog zawiera również pewne istotne informacje.

EDYCJA: Co mam na myśli, że dodając grzbiet wyznacznik jest „ odciągany ” od zera?

XT.X

det(XT.X-tja)=0
t
det(XT.X+λja-tja)=0
det(XT.X-(t-λ)ja)=0
(t-λ)tjatja+λλ

Oto kod R ilustrujący to:

# Create random matrix
A <- matrix(sample(10,9,T),nrow=3,ncol=3)

# Make a symmetric matrix
B <- A+t(A)

# Calculate eigenvalues
eigen(B)

# Calculate eigenvalues of B with ridge
eigen(B+3*diag(3))

Co daje wyniki:

> eigen(B)
$values
[1] 37.368634  6.952718 -8.321352

> eigen(B+3*diag(3))
$values
[1] 40.368634  9.952718 -5.321352

Tak więc wszystkie wartości własne zostają zwiększone o dokładnie 3.

Możesz to ogólnie udowodnić, używając twierdzenia o okręgu Gershgorina . Tam środkami okręgów zawierających wartości własne są elementy ukośne. Zawsze możesz dodać „tyle” do elementu ukośnego, aby wszystkie koła w dodatniej rzeczywistej półpłaszczyźnie. Ten wynik jest bardziej ogólny i nie jest potrzebny do tego.

Gumeo
źródło
Czy potrafisz wyjaśnić, w jaki sposób „odciąga” wyznacznik od zera (matematycznie)? Dzięki
użytkownik10024395,
@ user2675516 Zredagowałem swoją odpowiedź.
Gumeo,
„Oznacza to, że jeśli weźmiesz jakikolwiek inny obiektywny estymator, będzie on miał większą wariancję niż rozwiązanie OLS”. Masz na myśli wyższe nastawienie niż OLS? Myślałem, że OLS ma najmniejszą tendencyjność, więc wszystko inne miałoby większe uprzedzenie. Proszę wyjaśnić
GeorgeOfTheRF
@ML_Pro OLS ma zerową stronniczość, a spośród wszystkich obiektywnych estymatorów ma najmniejszą wariancję. To jest twierdzenie . Więc jeśli wybierzesz inny, wariancja wzrośnie. Ale jeśli regulujesz, wprowadzasz uprzedzenia.
Gumeo
Dzięki! Twoja odpowiedź mnie zaciekawiła. Czy potrafisz odpowiedzieć na to nowe pytanie, które stworzyłem? stats.stackexchange.com/questions/294926/…
GeorgeOfTheRF
2

Regresja Ridge

L2 = (y-xβ) ^ 2 + λ∑βi ^ 2

Rozwiąże to równanie tylko na razie dla jednego β, a później można uogólnić to:

Tak więc, (y-xβ) ^ 2 + λβ ^ 2 to jest nasze równanie dla jednego β.

Naszym celem jest zminimalizowanie powyższego równania, aby móc to zrobić, wyrówna to do zera i przyjmie pochodne wrt β

Y ^ 2- 2xyβ + x ^ 2 β ^ 2 + λβ ^ 2 = 0 ------- Korzystanie z rozszerzenia (ab) ^ 2

Częściowe pochodne wrt

-2xy + 2x ^ 2β + 2βλ = 0

2β (x ^ 2 + λ) = 2xy

β = 2xy / 2 (x ^ 2 + λ)

Wreszcie

β = xy / (x ^ 2 + λ)

Jeśli zaobserwujesz mianownik, nigdy nie będzie on zerowy, ponieważ dodajemy pewną wartość λ (tj. Parametr hiper). Dlatego wartość β będzie tak niska, jak to możliwe, ale nie osiągnie zera.

Regresja LASSO:

L1 = (y-xβ) ^ 2 + λ∑ | β |

Na razie rozwiąże to równanie tylko dla jednego β, a później możesz uogólnić to na więcej β:

Tak więc, (y-xβ) ^ 2 + λβ to jest nasze równanie dla jednego β, tutaj rozważałem + ve wartość β.

Naszym celem jest zminimalizowanie powyższego równania, aby móc to zrobić, wyrówna to do zera i przyjmie pochodne wrt β

Y ^ 2- 2xyβ + x ^ 2 β ^ 2 + λβ = 0 ------- Korzystanie z rozszerzenia (ab) ^ 2

Częściowe pochodne wrt

-2xy + 2x ^ 2β + λ = 0

2x ^ 2β + λ = 2xy

2x ^ 2β = 2xy-λ

Wreszcie

β = (2xy-λ) / (2X ^ 2)

Jeśli zaobserwujesz licznik, wyniesie on zero, ponieważ odejmujemy pewną wartość λ (tj. Parametr hiper). Dlatego wartość β zostanie ustawiona na zero.

Chetan Patil
źródło