Dla regresji Lasso załóżmy że najlepsze rozwiązanie (na przykład minimalny błąd testowania) wybiera k funkcji, więc \ hat {\ beta} ^ {lasso} = \ left (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ {lasso}, 0, ... 0 \ prawo) .k β l y y o = ( β l e s o 1 , β l y y O 2 , . . . , β l
Wiemy, że to tendencyjne oszacowanie , więc dlaczego nadal traktujemy jako ostateczne rozwiązanie, zamiast bardziej „rozsądnego” , gdzie to oszacowanie LS z modelu częściowego . ( oznacza kolumny odpowiadające wybranym cechom).
W skrócie, dlaczego używamy Lasso zarówno do wyboru funkcji, jak i do szacowania parametrów, a nie tylko do wyboru zmiennych (i pozostawiając oszacowanie wybranych funkcji OLS)?
(Ponadto, co to znaczy, że „Lasso może wybrać najwyżej funkcji”? to wielkość próbki).
źródło
Odpowiedzi:
Nie sądzę, aby było coś złego w używaniu LASSO do wyboru zmiennych, a następnie w OLS. Z „ elementów uczenia statystycznego ” (str. 91)
Innym rozsądnym podejściem podobnym duchem do zrelaksowanego lassa byłoby użycie lassa raz (lub kilka razy w tandemie) do identyfikacji grupy zmiennych predykcyjnych kandydujących. Następnie użyj regresji najlepszych podzbiorów, aby wybrać najlepsze zmienne predykcyjne do rozważenia (zobacz także „Elementy uczenia statystycznego”). Aby to zadziałało, konieczne byłoby udoskonalenie grupy predyktorów kandydujących do około 35, co nie zawsze będzie możliwe. Jako kryterium zapobiegania nadmiernemu dopasowaniu można zastosować walidację krzyżową lub AIC.
źródło
Jeśli Twoim celem jest optymalna wydajność w próbie (wrt najwyższy R-kwadrat), po prostu użyj OLS na każdej dostępnej zmiennej. Porzucenie zmiennych zmniejszy wartość R do kwadratu.
Jeśli Twoim celem jest dobre wyniki poza próbą (co zwykle jest o wiele ważniejsze), wówczas proponowana strategia będzie cierpieć z powodu dwóch źródeł nadmiernego dopasowania:
Celem LASSO jest zmniejszenie szacunków parametrów do zera w celu walki z dwoma źródłami nadmiernego dopasowania. Prognozy w próbie będą zawsze gorsze niż OLS, ale istnieje nadzieja (w zależności od siły kary) na uzyskanie bardziej realistycznego zachowania poza próbą.
Odnośnie : To (prawdopodobnie) zależy od implementacji LASSO, której używasz. Wariant, Lars (regresja najmniejszego kąta), łatwo działa dla p > n .p>n p>n
źródło
W odniesieniu do PO pytanie, dlaczego Lasso może wybrać maksymalnie n funkcji:
źródło