Czytałem Elementy uczenia statystycznego i chciałbym wiedzieć, dlaczego Lasso zapewnia wybór zmiennych, a regresja grzbietu nie.
Obie metody minimalizują resztkową sumę kwadratów i ograniczają możliwe wartości parametrów . W przypadku Lasso ograniczenie wynosi , podczas gdy dla kalenicy jest to , dla niektórych .
Widziałem w książce zdjęcie rombu i elipsy i mam intuicję, dlaczego Lasso może uderzać w rogi ograniczonego regionu, co sugeruje, że jeden ze współczynników jest ustawiony na zero. Jednak moja intuicja jest raczej słaba i nie jestem przekonany. Powinno być łatwo to zobaczyć, ale nie wiem, dlaczego to prawda.
Myślę więc, że szukam matematycznego uzasadnienia lub intuicyjnego wyjaśnienia, dlaczego kontury resztkowej sumy kwadratów prawdopodobnie uderzą w rogi obszaru ograniczonego (podczas gdy taka sytuacja jest mało prawdopodobna, jeśli ograniczenie to ).
źródło
Odpowiedzi:
Rozważmy bardzo prosty model: , z karą L1 na i funkcją utraty najmniejszych kwadratów na . Możemy rozszerzyć wyrażenie, aby zminimalizować jako:y=βx+e β^ e^
Załóżmy, że rozwiązaniem najmniejszych kwadratów jest jakieś , co jest równoznaczne z założeniem, że , i zobaczmy, co się stanie, gdy dodamy karę L1. Z , , więc kara jest równa . Pochodną funkcji celu wrt jest:β^>0 yTx>0 β^>0 |β^|=β^ 2λβ β^
który najwyraźniej ma rozwiązanie .β^=(yTx−λ)/(xTx)
Oczywiście, zwiększając , możemy doprowadzić do zera (w ). Jednak gdy , zwiększenie nie spowoduje, że będzie ujemne, ponieważ, pisząc luźno, instant staje się ujemny, pochodna funkcji celu zmienia się na:λ β^ λ=yTx β^=0 λ β^
gdzie odwrócenie znaku wynika z charakteru wartości bezwzględnej kary pieniężnej; gdy staje się ujemna, kara umowna staje się równa , a wzięcie pochodnej wrt daje . Prowadzi to do rozwiązania , co jest oczywiście niespójne z (biorąc pod uwagę, że rozwiązanie najmniejszych kwadratów , co implikuje iλ β −2λβ β −2λ β^=(yTx+λ)/(xTx) β^<0 >0 yTx>0 λ>0 ). Istnieje wzrost kary za L1 ORAZ wzrost kwadratu błędu (gdy przechodzimy dalej od rozwiązania najmniejszych kwadratów) podczas przenoszenia z do , więc nie, po prostu trzymaj się .β^ 0 <0 β^=0
Intuicyjnie powinno być jasne, że obowiązuje ta sama logika, z odpowiednimi zmianami znaków, dla rozwiązania najmniejszych kwadratów z .β^<0
Jednak z karą najmniejszych kwadratów pochodna staje się:λβ^2
który najwyraźniej ma rozwiązanie . Oczywiście żaden wzrost nie doprowadzi tego do zera. Tak więc kara za L2 nie może działać jako narzędzie do selekcji zmiennych bez pewnych łagodnych przekleństw, takich jak „ustaw oszacowanie parametru na zero, jeśli jest mniejsze niż ”.β^=yTx/(xTx+λ) λ ϵ
Oczywiście rzeczy mogą się zmienić, gdy przejdziesz do modeli wielowymiarowych, na przykład przesunięcie oszacowania jednego parametru może zmusić inny parametr do zmiany znaku, ale ogólna zasada jest taka sama: funkcja kary L2 nie może doprowadzić cię do zera, ponieważ pisząc bardzo heurystycznie, w rzeczywistości dodaje on do „mianownika” wyrażenia dla , ale funkcja kary L1 może, ponieważ w rzeczywistości dodaje do „licznika”.β^
źródło
Załóżmy, że mamy zestaw danych z y = 1 i x = [1/10 1/10] (jeden punkt danych, dwie cechy). Jednym z rozwiązań jest wybranie jednej z funkcji, inną funkcją jest zważenie obu funkcji. Czyli możemy wybrać w = [5 5] lub w = [10 0].
Zauważ, że dla normy L1 oba mają tę samą karę, ale im bardziej rozłożona waga ma niższą karę dla normy L2.
źródło
Myślę, że istnieją już doskonałe odpowiedzi, ale tylko po to, aby dodać intuicję dotyczącą interpretacji geometrycznej:
„Lasso wykonuje skurcz , tak że w wiązaniu występują„ rogi ”, które w dwóch wymiarach odpowiadają diamentowi. Jeśli suma kwadratów„ uderza ”jeden z tych rogów, to współczynnik odpowiadający osi zostaje skurczony do zera.L1
W miarę wzrostu , wielowymiarowy diament ma coraz większą liczbę naroży, a zatem jest bardzo prawdopodobne, że niektóre współczynniki zostaną ustawione na zero. Dlatego lasso dokonuje skurczu i (skutecznie) selekcji podzbiorów.p
W przeciwieństwie do wyboru podzbioru grzbiet wykonuje łagodne progowanie: w miarę zmiany parametru wygładzania ścieżka próbki oszacowań przesuwa się stale do zera. ”
Źródło: https://onlinecourses.science.psu.edu/stat857/book/export/html/137
Efekt można dobrze przedstawić, gdy kolorowe linie są ścieżkami kurczących się współczynników regresji do zera.
„Regresja grzbietu zmniejsza wszystkie współczynniki regresji do zera; lasso ma tendencję do dawania zestawu współczynników regresji zerowej i prowadzi do rzadkiego rozwiązania”.
Źródło: https://onlinecourses.science.psu.edu/stat857/node/158
źródło