Normy Ridge i LASSO

12

Ten post jest następujący: dlaczego oszacowanie grzbietu staje się lepsze niż OLS poprzez dodanie stałej do przekątnej?

Oto moje pytanie:

O ile mi wiadomo, w regularyzacji grzbietu stosuje się -norm (odległość euklidesowa). Ale dlaczego używamy kwadratu tej normy? (bezpośrednie zastosowanie dałoby pierwiastek kwadratowy z sumy beta kwadratu).22

Dla porównania, nie robimy tego dla LASSO, który używa . Ale tutaj jest to „prawdziwa” norma (tylko suma kwadratu wartości bezwzględnych beta, a nie kwadrat tej sumy).11

Czy ktoś może mi pomóc wyjaśnić?

PLOTZ
źródło
2
Terminem karnym w regresji kalenicowej jest kwadratowa norma L2. Zobacz te slajdy napisane przez Tibshirani jako przykład (slajd 7) stat.cmu.edu/~ryantibs/datamining/lectures/16-modr1.pdf Zobacz także tutaj en.wikipedia.org/wiki/Tikhonov_regularization
boscovich
Małe wyjaśnienie, to są slajdy Ryana Tibshiraniego, a nie Roba.
Ellis Valentiner
ok, wielkie dzięki za wyjaśnienie. Ale nie rozumiem, dlaczego podniesiono do kwadratu dla L2, a nie do kwadratu dla L1. Czy nie mamy ogólnych wzorów na jakąkolwiek regularyzację?
PLOTZ
@ user12202013: dziękuję za zwrócenie na to uwagi. Nie zauważyłem tego.
boscovich

Odpowiedzi:

9

Ridge i lasso to dwa sposoby regularyzacji i regresji. Regresja Lasso nakłada ograniczenie na sumę współczynników bezwzględnych:

iβi2=||β||1

Regresja kalenicy nakłada ograniczenie sumy kwadratów różnic:

iβi2=iβi22=||βi||22

Zasugerowałeś wprowadzenie jeszcze innej normy, euklidesowej długości współczynników:

iβi2=||βi||2

Różnica między regresją Ridge'a a długością euklidesową stanowi kwadrat. To zmienia interpretację regularyzacji. Podczas gdy zarówno długość grzbietu, jak i długość euklidesa regulują się w kierunku zera, regresja grzbietu różni się również ilością regularyzacji. Współczynniki, które są dalej od zera, przyciągają silniej do zera. To sprawia, że ​​jest bardziej stabilny wokół zera, ponieważ regularyzacja zmienia się stopniowo wokół zera. Nie dotyczy to długości euklidesowej ani w rzeczywistości regresji lasso.

Pieter
źródło
7

Istnieje wiele podejść karnych, które mają teraz różnego rodzaju funkcje karne (ridge, lasso, MCP, SCAD). Pytanie, dlaczego jedna z konkretnych form jest w zasadzie „jakie zalety / wady zapewnia taka kara?”.

Właściwymi właściwościami mogą być:

1) prawie obiektywne estymatory (zwróć uwagę, że wszystkie ukarane estymatory będą stronnicze)

2) Sparowność (zauważ, że regresja grzbietu nie daje rzadkich wyników, tj. Nie zmniejsza współczynników do zera)

3) Ciągłość (aby uniknąć niestabilności w przewidywaniu modelu)

To tylko kilka właściwości, które mogą być zainteresowane funkcją karną.

O wiele łatwiej jest pracować z sumą pochodnych i pracą teoretyczną: np. i. Wyobraź sobie, że mielibyśmy lub . Przyjmowanie pochodnych (niezbędnych do wykazania wyników teoretycznych, takich jak spójność, asymptotyczna normalność itp.) Byłoby bolesne z takimi karami.| | β | | 1 = | β i | ||β||22=|βi|2||β||1=|βi| (|βi|)2(|βi|2)(|βi|)2

bdeonovic
źródło
ok dzięki. Ale dlaczego kwadrat dla L2, a nie kwadrat dla L1? Czy nie mamy ogólnych wzorów na jakąkolwiek regularyzację? To mnie zastanawia ...
PLOTZ
@PLOTZ Dodałem trochę do mojej odpowiedzi.
bdeonovic
Wielkie dzięki Benjamin! Na pewno jest teraz wyraźniej! Nie dostałem tego teoretycznego celu przed twoją odpowiedzią. Wielkie dzięki za odpowiedź.
PLOTZ
@Benjamin: w punkcie 1 miałeś na myśli „( nie wszystkie ukarane estymatory będą obiektywne)”? Regresja kalenicy - żeby wymienić tylko jedno - jest stronnicza.
boscovich
tak, dziękuję za złapanie tego! Myślę, że w rzeczywistości wszystkie kary podlegające estymacji będą stronnicze.
bdeonovic
5

W rzeczywistości zarówno kwadrat -norm, jak i -norm pochodzą z tej samej klasy regularyzacji: gdy .121βppp>0

Regresja Ridge'a używa wtedy , a Lasso ale można użyć innych wartości .p=2p=1p

Na przykład masz rzadkie rozwiązanie dla wszystkich wartości , a im mniejsza wartość tym rzadsze jest rozwiązanie.p1p

Dla wartości twój cel nie jest bardziej płynny, więc optymalizacja staje się trudniejsza; dla cel nie jest wypukły, więc optymalizacja jest jeszcze trudniejsza ...p1p<1

Tonio Bonnef
źródło
2

Wierzę, że jest tu jeszcze prostsza odpowiedź, chociaż na pytania „dlaczego” zawsze trudno jest odpowiedzieć, gdy opracowana zostanie technika. Kwadratowy -norm jest używany, aby termin regularyzacji był łatwo różnicowalny. Regresja grzbietu minimalizuje:l2

yXβ22+λβ22

Które można również zapisać:

yXβ22+λβTβ

Można to teraz łatwo odróżnić wrt aby uzyskać rozwiązanie w formie zamkniętej:β

β^ridge=(XTX+λI)1XTy

z którego można wyciągnąć wszelkie wnioski.

Tim Atreides
źródło
1

Rozważ jeszcze jedną ważną różnicę między użyciem kwadratu normy (tj. Regresji grzbietu) a niezmodyfikowaną normą : pochodna normy , , w jest dana przez i dlatego nie można go rozróżnić w wektorze zerowym. Oznacza to, że chociaż norma nie dokonuje selekcji indywidualnych zmiennych, takich jak lasso, teoretycznie mogłaby dać jako rozwiązanie maksymalnego prawdopodobieństwa karanego. Przez kwadratury222x||x||2xx||x||22β=02 norma w karach, kara kalenicowa jest zróżnicowana wszędzie i nigdy nie może dać takiego rozwiązania.

To zachowanie jest dokładnie (moim zdaniem) powodem, dla którego grupa lasso (Yuan i Lin) i grupa rzadka lasso (Simon, i in.) normy (w określonych podzbiorach współczynników) zamiast kwadratu z normy.22

psboonstra
źródło