Wybór zakresu i gęstości siatki dla parametru regularyzacji w LASSO

Tymczasem studiuję LASSO ( operator najmniejszego bezwzględnego skurczu i operatora selekcji). Widzę, że optymalną wartość parametru regularyzacji można wybrać poprzez weryfikację krzyżową. Widzę również w regresji grzbietu i wielu metodach, które stosują regularyzację, możemy użyć CV, aby znaleźć optymalny parametr regularyzacji (mówiąc karę). Teraz moje pytanie dotyczy początkowych wartości górnej i dolnej granicy parametru oraz tego, jak określić długość sekwencji.

Mówiąc konkretnie, załóżmy, że mamy problem z i chcemy znaleźć optymalną wartość kary, . Jak zatem wybrać dolną i górną granicę dla ? i ile dzieli między tymi dwiema wartościami ?

L o g L i k e l i h o o d = (y - x β)^{'} (y - x β) + λ \sum | β |_{1}

$LogLikelihood = (y-x\beta)'(y-x\beta) + \lambda \sum|\beta|_1$

λ

$\lambda$

λ \in [a = ?, b = ?]

$\lambda \in [a=?,b=?]$

\frac{(b - a)}{k = ?}

$\frac{(b-a)}{k=?}$

lasso regularization shrinkage TPArrow
źródło

Powiązane pytanie tutaj .

Richard Hardy,

Możliwy duplikat dokładności siatki i przeszycia przy użyciu regularyzacji (LASSO, kalenica, elastyczna siatka)

Sycorax mówi Przywróć Monikę

Odpowiedzi:

Metodologia ta jest opisana w artykule glmnet Ścieżki normalizacji dla uogólnionych modeli liniowych poprzez zejście współrzędnych . Chociaż metodologia tutaj dotyczy ogólnego przypadku regularyzacji zarówno i , powinna ona również dotyczyć LASSO (tylko ). $L^1$ $L^2$ $L^1$

Rozwiązanie maksymalnego podano w sekcji 2.5. $\lambda$

Gdy , widzimy z (5), że pozostanie zerowe, jeśli $\tilde\beta = 0$ $\tilde\beta_j$ . Stąd $\frac{1}{N} | \langle x_j , y \rangle | < \lambda \alpha$ $N \alpha \lambda_{max} = \max_l | \langle x_l , y \rangle |$

Oznacza to, że obserwujemy, że reguła aktualizacji dla wersji beta zmusza wszystkie oszacowania parametrów do zera dla jak określono powyżej. $\lambda > \lambda_{max}$

Określenie oraz liczbę punktów siatki wydaje się mniej zasadnicze. W glmnet ustawiają , a następnie wybierają siatkę równomiernie rozmieszczonych punktów na skali logarytmicznej. $\lambda_{min}$ $\lambda_{min} = 0.001 * \lambda_{max}$ $100$

Działa to dobrze w praktyce, w moim szerokim użyciu glmnet nigdy nie uważałem, że ta siatka jest zbyt gruba.

$L^1$ $\lambda$

Przypadek modeli nieliniowych (tj. Logistycznych, poissonów) jest trudniejszy. Na wysokim poziomie najpierw uzyskuje się kwadratowe przybliżenie funkcji straty przy początkowych parametrach , a następnie powyższe obliczenia stosuje się do określenia . Dokładne obliczenie ścieżek parametrów nie jest w tych przypadkach możliwe, nawet jeśli zapewniona jest tylko regularyzacja , więc wyszukiwanie siatki jest jedyną opcją. $\beta = 0$ $\lambda_{max}$ $L^1$

Odważniki próbek również komplikują sytuację, produkty wewnętrzne należy zastąpić w odpowiednich miejscach ważonymi produktami wewnętrznymi.

Matthew Drury
źródło