Wybór zakresu i gęstości siatki dla parametru regularyzacji w LASSO

12

Tymczasem studiuję LASSO ( operator najmniejszego bezwzględnego skurczu i operatora selekcji). Widzę, że optymalną wartość parametru regularyzacji można wybrać poprzez weryfikację krzyżową. Widzę również w regresji grzbietu i wielu metodach, które stosują regularyzację, możemy użyć CV, aby znaleźć optymalny parametr regularyzacji (mówiąc karę). Teraz moje pytanie dotyczy początkowych wartości górnej i dolnej granicy parametru oraz tego, jak określić długość sekwencji.

Mówiąc konkretnie, załóżmy, że mamy problem z i chcemy znaleźć optymalną wartość kary, . Jak zatem wybrać dolną i górną granicę dla ? i ile dzieli między tymi dwiema wartościami ? λ λ [ a = ? , b = ? ] ( b - a )

LogLikelihood=(yxβ)(yxβ)+λ|β|1
λλ[a=?,b=?](ba)k=?
TPArrow
źródło
Powiązane pytanie tutaj .
Richard Hardy,

Odpowiedzi:

13

Metodologia ta jest opisana w artykule glmnet Ścieżki normalizacji dla uogólnionych modeli liniowych poprzez zejście współrzędnych . Chociaż metodologia tutaj dotyczy ogólnego przypadku regularyzacji zarówno i , powinna ona również dotyczyć LASSO (tylko ).L 2 L 1L1L2L1

Rozwiązanie maksymalnego podano w sekcji 2.5. λ

Gdy , widzimy z (5), że ˜ β j pozostanie zerowe, jeśli 1β~=0β~j. StądNαλmax=maxl| XL,Y|1N|xj,y|<λαNαλmax=maxl|xl,y|

Oznacza to, że obserwujemy, że reguła aktualizacji dla wersji beta zmusza wszystkie oszacowania parametrów do zera dla jak określono powyżej.λ>λmax

Określenie oraz liczbę punktów siatki wydaje się mniej zasadnicze. W glmnet ustawiają λ m i n = 0,001 λ m a x , a następnie wybierają siatkę 100 równomiernie rozmieszczonych punktów na skali logarytmicznej.λminλmin=0.001λmax100

Działa to dobrze w praktyce, w moim szerokim użyciu glmnet nigdy nie uważałem, że ta siatka jest zbyt gruba.

L1λ

Przypadek modeli nieliniowych (tj. Logistycznych, poissonów) jest trudniejszy. Na wysokim poziomie najpierw uzyskuje się kwadratowe przybliżenie funkcji straty przy początkowych parametrach , a następnie powyższe obliczenia stosuje się do określenia . Dokładne obliczenie ścieżek parametrów nie jest w tych przypadkach możliwe, nawet jeśli zapewniona jest tylko regularyzacja , więc wyszukiwanie siatki jest jedyną opcją.λ m a x L 1β=0λmaxL1

Odważniki próbek również komplikują sytuację, produkty wewnętrzne należy zastąpić w odpowiednich miejscach ważonymi produktami wewnętrznymi.

Matthew Drury
źródło