Dlaczego Lasso zapewnia wybór zmiennych?

76

Czytałem Elementy uczenia statystycznego i chciałbym wiedzieć, dlaczego Lasso zapewnia wybór zmiennych, a regresja grzbietu nie.

Obie metody minimalizują resztkową sumę kwadratów i ograniczają możliwe wartości parametrów . W przypadku Lasso ograniczenie wynosi , podczas gdy dla kalenicy jest to , dla niektórych .β||β||1t||β||2tt

Widziałem w książce zdjęcie rombu i elipsy i mam intuicję, dlaczego Lasso może uderzać w rogi ograniczonego regionu, co sugeruje, że jeden ze współczynników jest ustawiony na zero. Jednak moja intuicja jest raczej słaba i nie jestem przekonany. Powinno być łatwo to zobaczyć, ale nie wiem, dlaczego to prawda.

Myślę więc, że szukam matematycznego uzasadnienia lub intuicyjnego wyjaśnienia, dlaczego kontury resztkowej sumy kwadratów prawdopodobnie uderzą w rogi obszaru ograniczonego (podczas gdy taka sytuacja jest mało prawdopodobna, jeśli ograniczenie to ).||β||1||β||2

Zhi Zhao
źródło
Wszystkie poniższe odpowiedzi są dobrym wyjaśnieniem. Ale opublikowałem artykuł z reprezentacją wizualną. Poniżej znajduje się link medium.com/@vamsi149/…
solver149,

Odpowiedzi:

70

Rozważmy bardzo prosty model: , z karą L1 na i funkcją utraty najmniejszych kwadratów na . Możemy rozszerzyć wyrażenie, aby zminimalizować jako:y=βx+eβ^e^

minyTy2yTxβ^+β^xTxβ^+2λ|β^|

Załóżmy, że rozwiązaniem najmniejszych kwadratów jest jakieś , co jest równoznaczne z założeniem, że , i zobaczmy, co się stanie, gdy dodamy karę L1. Z , , więc kara jest równa . Pochodną funkcji celu wrt jest:β^>0yTx>0β^>0|β^|=β^2λββ^

2yTx+2xTxβ^+2λ

który najwyraźniej ma rozwiązanie . β^=(yTxλ)/(xTx)

Oczywiście, zwiększając , możemy doprowadzić do zera (w ). Jednak gdy , zwiększenie nie spowoduje, że będzie ujemne, ponieważ, pisząc luźno, instant staje się ujemny, pochodna funkcji celu zmienia się na:λβ^λ=yTxβ^=0λβ^

2yTx+2xTxβ^2λ

gdzie odwrócenie znaku wynika z charakteru wartości bezwzględnej kary pieniężnej; gdy staje się ujemna, kara umowna staje się równa , a wzięcie pochodnej wrt daje . Prowadzi to do rozwiązania , co jest oczywiście niespójne z (biorąc pod uwagę, że rozwiązanie najmniejszych kwadratów , co implikuje iλβ2λββ2λβ^=(yTx+λ)/(xTx)β^<0>0yTx>0λ>0). Istnieje wzrost kary za L1 ORAZ wzrost kwadratu błędu (gdy przechodzimy dalej od rozwiązania najmniejszych kwadratów) podczas przenoszenia z do , więc nie, po prostu trzymaj się .β^0<0β^=0

Intuicyjnie powinno być jasne, że obowiązuje ta sama logika, z odpowiednimi zmianami znaków, dla rozwiązania najmniejszych kwadratów z . β^<0

Jednak z karą najmniejszych kwadratów pochodna staje się:λβ^2

2yTx+2xTxβ^+2λβ^

który najwyraźniej ma rozwiązanie . Oczywiście żaden wzrost nie doprowadzi tego do zera. Tak więc kara za L2 nie może działać jako narzędzie do selekcji zmiennych bez pewnych łagodnych przekleństw, takich jak „ustaw oszacowanie parametru na zero, jeśli jest mniejsze niż ”. β^=yTx/(xTx+λ)λϵ

Oczywiście rzeczy mogą się zmienić, gdy przejdziesz do modeli wielowymiarowych, na przykład przesunięcie oszacowania jednego parametru może zmusić inny parametr do zmiany znaku, ale ogólna zasada jest taka sama: funkcja kary L2 nie może doprowadzić cię do zera, ponieważ pisząc bardzo heurystycznie, w rzeczywistości dodaje on do „mianownika” wyrażenia dla , ale funkcja kary L1 może, ponieważ w rzeczywistości dodaje do „licznika”. β^

łucznik
źródło
Czy Lasso zapewnia również wybór funkcji w przypadku modeli nieliniowych, np. NN?
Ilya,
Małe pytanie uzupełniające: Jak być, jeśli jest wektorem, a jest skalarem, który możemy zmieniać, aby znaleźć dopasowanie? λ=yTxyTxλ
Jekaterina Kokatjuhha
Użyłem przykładu z jedną zmienną, więc jest skalarem. Jeśli rozwiązujesz problem wielowymiarowy, wówczas zostaje pomnożona przez wektor jedności o długości = rozmiar lub odpowiednio dobranej macierzy tożsamości, w zależności od tego, który problem jest rozwiązywany. Możesz to wypracować, zauważając na przykład, że norma L2 = , i dokonując podstawień w powyższych formułach. yTxλβzzTIz
jbowman
Czy byłoby możliwe pokazanie (matematycznie?), Jak zmienia się znak lambda z powodu absolutnej natury funkcji karnej, ponieważ nie jestem w stanie podążać za tą logiką.
user1420372
@ user1420372 - zrobili; Powiedz mi co myślisz.
jbowman
9

Załóżmy, że mamy zestaw danych z y = 1 i x = [1/10 1/10] (jeden punkt danych, dwie cechy). Jednym z rozwiązań jest wybranie jednej z funkcji, inną funkcją jest zważenie obu funkcji. Czyli możemy wybrać w = [5 5] lub w = [10 0].

Zauważ, że dla normy L1 oba mają tę samą karę, ale im bardziej rozłożona waga ma niższą karę dla normy L2.

blarg
źródło
8

Myślę, że istnieją już doskonałe odpowiedzi, ale tylko po to, aby dodać intuicję dotyczącą interpretacji geometrycznej:

„Lasso wykonuje skurcz , tak że w wiązaniu występują„ rogi ”, które w dwóch wymiarach odpowiadają diamentowi. Jeśli suma kwadratów„ uderza ”jeden z tych rogów, to współczynnik odpowiadający osi zostaje skurczony do zera.L1

W miarę wzrostu , wielowymiarowy diament ma coraz większą liczbę naroży, a zatem jest bardzo prawdopodobne, że niektóre współczynniki zostaną ustawione na zero. Dlatego lasso dokonuje skurczu i (skutecznie) selekcji podzbiorów.p

W przeciwieństwie do wyboru podzbioru grzbiet wykonuje łagodne progowanie: w miarę zmiany parametru wygładzania ścieżka próbki oszacowań przesuwa się stale do zera. ”

Źródło: https://onlinecourses.science.psu.edu/stat857/book/export/html/137

Efekt można dobrze przedstawić, gdy kolorowe linie są ścieżkami kurczących się współczynników regresji do zera.

wprowadź opis zdjęcia tutaj

„Regresja grzbietu zmniejsza wszystkie współczynniki regresji do zera; lasso ma tendencję do dawania zestawu współczynników regresji zerowej i prowadzi do rzadkiego rozwiązania”.

wprowadź opis zdjęcia tutaj

Źródło: https://onlinecourses.science.psu.edu/stat857/node/158

vonjd
źródło