Dlaczego warto używać oszacowań Lasso zamiast oszacowań OLS w podzbiorze zmiennych zidentyfikowanych przez Lasso?

26

Dla regresji Lasso załóżmy że najlepsze rozwiązanie (na przykład minimalny błąd testowania) wybiera k funkcji, więc \ hat {\ beta} ^ {lasso} = \ left (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ {lasso}, 0, ... 0 \ prawo) .k β l y y o = ( β l e s o 1 , β l y y O 2 , . . . , β l

L(β)=(Xβy)(Xβy)+λβ1,
kβ^lasso=(β^1lasso,β^2lasso,...,β^klasso,0,...0)

Wiemy, że (β^1lasso,β^2lasso,...,β^klasso) to tendencyjne oszacowanie (β1,β2,...,βk) , więc dlaczego nadal traktujemy β^lasso jako ostateczne rozwiązanie, zamiast bardziej „rozsądnego” β^new=(β^1:knew,0,...,0) , gdzie β^1:knew to oszacowanie LS z modelu częściowego Lnew(β1:k)=(X1:kβy)(X1:kβy) . ( X1:k oznacza kolumny X odpowiadające k wybranym cechom).

W skrócie, dlaczego używamy Lasso zarówno do wyboru funkcji, jak i do szacowania parametrów, a nie tylko do wyboru zmiennych (i pozostawiając oszacowanie wybranych funkcji OLS)?

(Ponadto, co to znaczy, że „Lasso może wybrać najwyżej n funkcji”? n to wielkość próbki).

yliueagle
źródło
1
To bardzo dobre pytanie. Czy wypróbowałeś kilka symulacji, aby zobaczyć, jak różne byłyby wyniki od standardowego Lasso, gdybyś spróbował tego po swojemu?
Placidia
3
Czy zrozumiałeś cel „Kurczenia się” w LASSO?
Michael M
6
Chodzi o to, aby zmniejszyć szacunkowe współczynniki właśnie dlatego, że wybrałeś te największe. Szacunki dotyczące najmniejszych kwadratów nie są już obiektywne, jeśli wcześniej dokonałeś wyboru funkcji.
Scortchi - Przywróć Monikę
2
Zobacz poniższe pytanie, aby uzyskać świetną odpowiedź na „Jaki problem rozwiązują metody skurczu?” stats.stackexchange.com/questions/20295/…
DL Dahly
2
Żeby było jasne: nie mówienie @Scortchi jest błędne, ale jest to trochę szara strefa podczas omawiania wyboru funkcji, i myślę, że jest to ważna kwestia techniczna, którą należy wyjaśnić.
JohnA

Odpowiedzi:

27

Nie sądzę, aby było coś złego w używaniu LASSO do wyboru zmiennych, a następnie w OLS. Z „ elementów uczenia statystycznego ” (str. 91)

... skurcz lasso powoduje, że szacunki niezerowych współczynników są odchylone w kierunku zera i ogólnie nie są one spójne [ Dodano uwagę: Oznacza to, że wraz ze wzrostem wielkości próbki szacunki współczynników nie są zbieżne] . Jednym ze sposobów zmniejszenia tego obciążenia jest uruchomienie lassa w celu zidentyfikowania zestawu niezerowych współczynników, a następnie dopasowanie nieograniczonego modelu liniowego do wybranego zestawu cech. Nie zawsze jest to możliwe, jeśli wybrany zestaw jest duży. Alternatywnie można użyć lasso, aby wybrać zestaw niezerowych predyktorów, a następnie ponownie zastosować lasso, ale używając tylko wybranych predyktorów z pierwszego kroku. Jest to znane jako zrelaksowane lasso(Meinshausen, 2007). Chodzi o to, aby użyć krzyżowej weryfikacji do oszacowania początkowego parametru kary dla lasso, a następnie ponownie dla drugiego parametru kary zastosowanego do wybranego zestawu predyktorów. Ponieważ zmienne w drugim etapie mają mniejszą „konkurencję” względem zmiennych szumowych, walidacja krzyżowa będzie miała tendencję do wybierania mniejszej wartości dla [parametru kary], a zatem ich współczynniki zostaną zmniejszone mniej niż w pierwotnym oszacowaniu.λ

Innym rozsądnym podejściem podobnym duchem do zrelaksowanego lassa byłoby użycie lassa raz (lub kilka razy w tandemie) do identyfikacji grupy zmiennych predykcyjnych kandydujących. Następnie użyj regresji najlepszych podzbiorów, aby wybrać najlepsze zmienne predykcyjne do rozważenia (zobacz także „Elementy uczenia statystycznego”). Aby to zadziałało, konieczne byłoby udoskonalenie grupy predyktorów kandydujących do około 35, co nie zawsze będzie możliwe. Jako kryterium zapobiegania nadmiernemu dopasowaniu można zastosować walidację krzyżową lub AIC.

Alex Williams
źródło
Inna część mojego pytania brzmi: dlaczego „Lasso może wybrać najwyżej n funkcji”? Jeśli tak jest, myślę, że OLS na wybranych funkcjach będzie co najmniej „dobry”, ponieważ OLS jest „NIEBIESKI” (Nie jest ściśle NIEBIESKI, ponieważ jest w większości stronniczy). Wystarczy rozważyć ekstremalną sytuację, w której Lasso wybiera dokładnie odpowiednie funkcje, przeprowadzenie OLS na tych funkcjach przywróci prawdziwy model, który moim zdaniem jest lepszy niż oszacowanie Lasso.
yliueagle
2
Problem polega na tym, że ta „ekstremalna sytuacja” jest bardzo mało prawdopodobna i nie ma możliwości dowiedzenia się, czy LASSO wybrał dokładnie odpowiednie funkcje. Jeśli LASSO wybierze zbyt wiele funkcji, myślę, że pełny model OLS może działać gorzej niż szacuje LASSO. Podobnie regresja grzbietu może przewyższyć OLS, jeśli jest zbyt wiele funkcji (tj. OLS jest nadmierny).
Alex Williams
2
Zobacz także web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf , koniec sekcji 2.2: „[...] dopasowanie najmniejszych kwadratów do podzbioru predyktorów [...] ma tendencję do rozszerzania oszacowań lasso od zera. Niezerowe szacunki z lasso są tendencyjne do zera, więc debiasing w prawym panelu może często poprawić błąd prognozowania modelu. Ten dwustopniowy proces jest również znany jako zrelaksowane lasso (Meinshausen 2007) . ”
ameba mówi Przywróć Monikę
1
Przejrzałem artykuł Meinshausena i faktycznie zaleca dopasowanie dwóch parametrów karnych, jak opisano w twoim oryginalnym cytacie z The Elements. +1
ameba mówi Przywróć Monikę
@AlexWilliams Ale czy w poprzednim paragrafie nie istnieje założenie rzadkości dotyczące korelacji między wybranym zestawem a tym, co jest niewielkie?
Dimitriy V. Masterov
15

Jeśli Twoim celem jest optymalna wydajność w próbie (wrt najwyższy R-kwadrat), po prostu użyj OLS na każdej dostępnej zmiennej. Porzucenie zmiennych zmniejszy wartość R do kwadratu.

Jeśli Twoim celem jest dobre wyniki poza próbą (co zwykle jest o wiele ważniejsze), wówczas proponowana strategia będzie cierpieć z powodu dwóch źródeł nadmiernego dopasowania:

  • Wybór zmiennych na podstawie korelacji ze zmienną odpowiedzi
  • Szacunki OLS

Celem LASSO jest zmniejszenie szacunków parametrów do zera w celu walki z dwoma źródłami nadmiernego dopasowania. Prognozy w próbie będą zawsze gorsze niż OLS, ale istnieje nadzieja (w zależności od siły kary) na uzyskanie bardziej realistycznego zachowania poza próbą.

Odnośnie : To (prawdopodobnie) zależy od implementacji LASSO, której używasz. Wariant, Lars (regresja najmniejszego kąta), łatwo działa dla p > n .p>np>n

Michael M.
źródło
2
W „Leekasso” (zawsze podnieść współczynniki 10) jest inna niż propozycja Pytanie jest (re-kosztorysowej OLS z k predyktorami zbierane przez lasso)
Afiniczna
@affine masz całkowitą rację. Usunąłem referencję.
Michael M
2
Brzmi rozsądnie, ale twórcy Lasso twierdzą inaczej i faktycznie zalecają stosowanie dwustopniowej procedury z OLS na podzbiorze zidentyfikowanym przez Lasso (jak sugeruje OP), patrz odpowiedź @ Alexa.
ameba mówi Przywróć Monikę
Podoba mi się ta odpowiedź, ponieważ wspomina o uprzedzeniu wyboru z samego wyszukiwania; wydaje się, że powinna istnieć dodatkowa kara. LASSO jako mechanizm selekcji podzbiorów - czy to wszystko? Dlaczego więc w ogóle drukować jego współczynniki?
Ben Ogorek
3

W odniesieniu do PO pytanie, dlaczego Lasso może wybrać maksymalnie n funkcji:

XT.Xβ=(XTX)1XTY

XTX

jmp111
źródło
1
(XTX)1