Dlaczego glmnet używa „naiwnej” elastycznej siatki z oryginalnego papieru Zou & Hastie?

Oryginalny papier elastycznej siatki Zou & Hastie (2005) Regularyzacja i wybór zmiennych za pomocą elastycznej siatki wprowadzono funkcję elastycznej utraty siatki dla regresji liniowej (tutaj zakładam, że wszystkie zmienne są wyśrodkowane i skalowane do wariancji jednostkowej): ale nazwał to „naiwną elastyczną siecią”. Twierdzili, że wykonuje podwójny skurcz (lasso i grzbiet), ma tendencję do nadmiernego kurczenia się i można go poprawić, przeskalowując otrzymane rozwiązanie w następujący sposób: Podali kilka teoretycznych argumentów i eksperymentalnych dowodów, że prowadzi to do lepszej wydajności.

L = \frac{1}{n} ‖ y - X β ‖^{2} + λ_{1} ‖ β ‖_{1} + λ_{2} ‖ β ‖_{2}^{2},

$\mathcal L = \frac{1}{n}\big\lVert y - X\beta\big\rVert^2 + \lambda_1\lVert \beta\rVert_1 + \lambda_2 \lVert \beta\rVert^2_2,$

{\hat{β}}^{*} = (1 + λ_{2}) \hat{β} .

$\hat\beta^* = (1+\lambda_2)\hat\beta.$

Jednak w kolejnym glmnetartykule Friedman, Hastie i Tibshirani (2010) Ścieżki regularyzacji dla uogólnionych modeli liniowych poprzez zejście współrzędnych nie wykorzystały tego przeskalowania i miały tylko krótki przypis

Zou i Hastie (2005) nazwali tę karę naiwną elastyczną siatką i woleli przeskalowaną wersję, którą nazwali elastyczną siatką. Porzucamy tutaj to rozróżnienie.

Nie podano tam żadnych dalszych wyjaśnień (ani w żadnym podręczniku Hastie i in.). Uważam to za nieco zagadkowe. Czy autorzy pominęli przeskalowanie, ponieważ uważali, że jest to zbyt ad hoc ? ponieważ działał gorzej w niektórych dalszych eksperymentach? ponieważ nie było jasne, jak uogólnić to na przypadek GLM? Nie mam pojęcia. Ale w każdym razie glmnetpakiet stał się bardzo popularny od tego czasu i mam wrażenie, że w dzisiejszych czasach nikt nie używa przeskalowywania od Zou i Hastie, a większość ludzi prawdopodobnie nawet nie jest świadoma tej możliwości.

Pytanie: czy przeskalowanie to był dobry, czy zły pomysł?

Przy glmnetparametryzacji przeskalowanie Zou i Hastie powinno być

{\hat{β}}^{*} = (1 + λ (1 - α)) \hat{β} .

$\hat\beta^* = \big(1+\lambda(1-\alpha)\big)\hat\beta.$

regression regularization glmnet elastic-net shrinkage ameba mówi Przywróć Monikę
źródło

Ponieważ w artykule wstępnym celem jest dopasowanie całej ścieżki regularyzacji, być może chodzi o to, że przeskalowanie byłoby po prostu monotoniczną transformacją ścieżki?

Matthew Drury

@MatthewDrury To prawda, ale mimo to Friedman i in. uważali, że przeskalowanie jest dobrym pomysłem, nie zostawiliby go poza dokumentem, a w szczególności poza glmnetkodem. Nie jest tam dostępny nawet jako funkcja opcjonalna (ich wcześniejszy kod, który towarzyszył artykułowi z 2005 r., Oczywiście obsługuje przeskalowanie).

ameba mówi Przywróć Monikę

Niestety, publiczny kod glmnet jest całkowicie nieczytelny ...

Matthew Drury

Wysłałem to pytanie do Zou i Hastie i otrzymałem następującą odpowiedź od Hastie (mam nadzieję, że nie miałby nic przeciwko, żebym to tutaj zacytował):

Myślę, że w Zou i wsp. Martwiliśmy się o dodatkowe odchylenie, ale oczywiście przeskalowanie zwiększa wariancję. Więc po prostu przesuwa jeden wzdłuż krzywej kompromisowej wariancji. Wkrótce dołączymy wersję zrelaksowanego lasso, która jest lepszą formą przeskalowania.

Interpretuję te słowa jako poparcie dla jakiejś formy „przeskalowania” waniliowej elastycznej siatki, ale Hastie nie wydaje się już stać przy szczególnym podejściu przedstawionym w Zou i Hastie 2005.

Poniżej krótko przejrzę i porównam kilka opcji przeskalowania.

Będę używał glmnetparametryzacji straty z rozwiązaniem oznaczonym jako .

L = \frac{1}{2 n} ‖ y - β_{0} - X β ‖^{2} + λ (α ‖ β ‖_{1} + (1 - α) ‖ β ‖_{2}^{2} / 2),

$\mathcal L = \frac{1}{2n}\big\lVert y - \beta_0-X\beta\big\rVert^2 + \lambda\big(\alpha\lVert \beta\rVert_1 + (1-\alpha) \lVert \beta\rVert^2_2/2\big),$

\hat{β}

$\hat\beta$

Podejście Zou & Hastie polega na użyciuZauważ, że daje to trochę nietrywialnego przeskalowania dla czystego grzbietu, gdy co prawdopodobnie nie ma większego sensu. Z drugiej strony nie daje to żadnego przeskalowania dla czystego lasso, gdy , pomimo różnych twierdzeń w literaturze, że estymator lasso mógłby skorzystać z pewnego przeskalowania (patrz poniżej).
${\hat{β}}_{rescaled} = (1 + λ (1 - α)) \hat{β} .$ $\hat\beta_\text{rescaled} = \big(1+\lambda(1-\alpha)\big)\hat\beta.$ $\alpha=0$ $\alpha=1$
W przypadku czystego lasso Tibshirani zasugerował użycie hybrydy lasso-OLS, tj. Zastosowanie estymatora OLS z wykorzystaniem podzbioru predyktorów wybranych przez lasso. Dzięki temu estymator jest spójny (ale cofa skurcz, co może zwiększyć oczekiwany błąd). To samo podejście można zastosować do elastycznej siatki ale potencjalnym problemem jest to, że elastyczna siatka może wybrać rozpadnie się więcej niż predyktorów i OLS (dla kontrastu, czysty lasso nigdy nie wybiera więcej niż predyktorów).
${\hat{β}}_{elastic-OLS-hybrid} = OLS (X_{i} ∣ {\hat{β}}_{i} \neq 0)$ $\hat\beta_\text{elastic-OLS-hybrid}= \text{OLS}(X_i\mid\hat\beta_i\ne 0)$ $n$ $n$
Zrelaksowane lasso wspomniane w cytowanym powyżej e-mailu Hastie jest propozycją uruchomienia innego lasso na podzbiorze predyktorów wybranych przez pierwsze lasso. Chodzi o to, aby zastosować dwie różne kary i wybrać obie poprzez walidację krzyżową. Ten sam pomysł można zastosować do elastycznej siatki, ale wydaje się, że wymaga to czterech różnych parametrów regularyzacji, a ich dostrojenie jest koszmarem.

Proponuję prostszy zrelaksowany schemat elastycznej siatki : po uzyskaniu wykonaj regresję grzbietu za pomocą i tej samej na wybranym podzbiorze predyktorów:To (a) nie wymaga żadnych dodatkowych parametrów regularyzacji, (b) działa na dowolną liczbę wybranych predyktorów, i (c) nie robi nic, jeśli zaczyna się od czystego grzbietu. Brzmi dobrze jak dla mnie. $\hat\beta$ $\alpha=0$ $\lambda$
${\hat{β}}_{relaxed-elastic-net} = Ridge (X_{i} ∣ {\hat{β}}_{i} \neq 0) .$ $\hat\beta_\text{relaxed-elastic-net}= \text{Ridge}(X_i\mid\hat\beta_i\ne 0).$

Obecnie pracy z małym zbioru danych z oraz , w której jest dobrze przewidywane przez parę czołowych PCS . Porównuję wydajność powyższych estymatorów za pomocą 100-krotnego powtórzenia 11-krotnej walidacji krzyżowej. Jako miernik wydajności używam błędu testu, znormalizowanego, aby uzyskać coś w rodzaju R-kwadrat:Na poniższym rysunku linie przerywane odpowiadają waniliowej elastycznej estymatorze netto a trzy wykresy odpowiadają trzem podejściom przeskalowania: $n\ll p$ $n=44$ $p=3000$ $y$ $X$

R_{test}^{2} = 1 - \frac{‖ y_{test} - {\hat{β}}_{0} - X_{test} \hat{β} ‖^{2}}{‖ y_{test} - {\hat{β}}_{0} ‖^{2}} .

$R^2_\text{test} = 1-\frac{\lVert y_\text{test} - \hat\beta_0 - X_\text{test}\hat\beta\rVert^2}{\lVert y_\text{test} - \hat\beta_0\rVert^2}.$

\hat{β}

$\hat\beta$

Zatem przynajmniej w tych danych wszystkie trzy podejścia przewyższają estymator waniliowej elastycznej siatki, a „zrelaksowana elastyczna siatka” działa najlepiej.

ameba mówi Przywróć Monikę
źródło

Dlaczego glmnet używa „naiwnej” elastycznej siatki z oryginalnego papieru Zou & Hastie?

Odpowiedzi: