Ten post jest następujący: dlaczego oszacowanie grzbietu staje się lepsze niż OLS poprzez dodanie stałej do przekątnej?
Oto moje pytanie:
O ile mi wiadomo, w regularyzacji grzbietu stosuje się -norm (odległość euklidesowa). Ale dlaczego używamy kwadratu tej normy? (bezpośrednie zastosowanie dałoby pierwiastek kwadratowy z sumy beta kwadratu).
Dla porównania, nie robimy tego dla LASSO, który używa . Ale tutaj jest to „prawdziwa” norma (tylko suma kwadratu wartości bezwzględnych beta, a nie kwadrat tej sumy).
Czy ktoś może mi pomóc wyjaśnić?
Odpowiedzi:
Ridge i lasso to dwa sposoby regularyzacji i regresji. Regresja Lasso nakłada ograniczenie na sumę współczynników bezwzględnych:
Regresja kalenicy nakłada ograniczenie sumy kwadratów różnic:
Zasugerowałeś wprowadzenie jeszcze innej normy, euklidesowej długości współczynników:
Różnica między regresją Ridge'a a długością euklidesową stanowi kwadrat. To zmienia interpretację regularyzacji. Podczas gdy zarówno długość grzbietu, jak i długość euklidesa regulują się w kierunku zera, regresja grzbietu różni się również ilością regularyzacji. Współczynniki, które są dalej od zera, przyciągają silniej do zera. To sprawia, że jest bardziej stabilny wokół zera, ponieważ regularyzacja zmienia się stopniowo wokół zera. Nie dotyczy to długości euklidesowej ani w rzeczywistości regresji lasso.
źródło
Istnieje wiele podejść karnych, które mają teraz różnego rodzaju funkcje karne (ridge, lasso, MCP, SCAD). Pytanie, dlaczego jedna z konkretnych form jest w zasadzie „jakie zalety / wady zapewnia taka kara?”.
Właściwymi właściwościami mogą być:
1) prawie obiektywne estymatory (zwróć uwagę, że wszystkie ukarane estymatory będą stronnicze)
2) Sparowność (zauważ, że regresja grzbietu nie daje rzadkich wyników, tj. Nie zmniejsza współczynników do zera)
3) Ciągłość (aby uniknąć niestabilności w przewidywaniu modelu)
To tylko kilka właściwości, które mogą być zainteresowane funkcją karną.
O wiele łatwiej jest pracować z sumą pochodnych i pracą teoretyczną: np. i. Wyobraź sobie, że mielibyśmy lub . Przyjmowanie pochodnych (niezbędnych do wykazania wyników teoretycznych, takich jak spójność, asymptotyczna normalność itp.) Byłoby bolesne z takimi karami.| | β | | 1 = ∑ | β i | √||β||22=∑|βi|2 ||β||1=∑|βi| (∑|βi|)2(∑|βi|2)−−−−−−−−√ (∑|βi|)2
źródło
W rzeczywistości zarówno kwadrat -norm, jak i -norm pochodzą z tej samej klasy regularyzacji: gdy .ℓ 1ℓ2 ℓ1 ∥β∥pp p>0
Regresja Ridge'a używa wtedy , a Lasso ale można użyć innych wartości .p=2 p=1 p
Na przykład masz rzadkie rozwiązanie dla wszystkich wartości , a im mniejsza wartość tym rzadsze jest rozwiązanie.p≤1 p
Dla wartości twój cel nie jest bardziej płynny, więc optymalizacja staje się trudniejsza; dla cel nie jest wypukły, więc optymalizacja jest jeszcze trudniejsza ...p≤1 p<1
źródło
Wierzę, że jest tu jeszcze prostsza odpowiedź, chociaż na pytania „dlaczego” zawsze trudno jest odpowiedzieć, gdy opracowana zostanie technika. Kwadratowy -norm jest używany, aby termin regularyzacji był łatwo różnicowalny. Regresja grzbietu minimalizuje:l2
Które można również zapisać:
Można to teraz łatwo odróżnić wrt aby uzyskać rozwiązanie w formie zamkniętej:β
z którego można wyciągnąć wszelkie wnioski.
źródło
Rozważ jeszcze jedną ważną różnicę między użyciem kwadratu normy (tj. Regresji grzbietu) a niezmodyfikowaną normą : pochodna normy , , w jest dana przez i dlatego nie można go rozróżnić w wektorze zerowym. Oznacza to, że chociaż norma nie dokonuje selekcji indywidualnych zmiennych, takich jak lasso, teoretycznie mogłaby dać jako rozwiązanie maksymalnego prawdopodobieństwa karanego. Przez kwadraturyℓ2 ℓ2 ℓ2 x ||x||2 x x||x||2 ℓ2 β=0 ℓ2 norma w karach, kara kalenicowa jest zróżnicowana wszędzie i nigdy nie może dać takiego rozwiązania.
To zachowanie jest dokładnie (moim zdaniem) powodem, dla którego grupa lasso (Yuan i Lin) i grupa rzadka lasso (Simon, i in.) normy (w określonych podzbiorach współczynników) zamiast kwadratu z normy.ℓ2 ℓ2
źródło