Jedną z motywów elastycznej siatki było następujące ograniczenie LASSO:
W przypadku lasso wybiera co najwyżej n zmiennych przed nasyceniem, ze względu na naturę problemu optymalizacji wypukłej. Wydaje się, że jest to cecha ograniczająca metodę wyboru zmiennych. Co więcej, lasso nie jest dobrze zdefiniowane, chyba że granica normy L1 współczynników jest mniejsza niż pewna wartość.
( http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/full )
Rozumiem, że LASSO jest kwadratowym problemem programistycznym, ale można go również rozwiązać za pomocą LARS lub elementarnego spadku gradientu. Ale nie rozumiem, gdzie w tych algorytmach napotykam problem, jeśli gdzie jest liczbą predyktorów, a jest wielkością próbki. I dlaczego ten problem rozwiązano za pomocą elastycznej siatki, w której zwiększam problem do zmiennych , które wyraźnie przekraczają .p n p + n p
źródło
Odpowiedzi:
Jak powiedziano, nie jest to właściwość algorytmu, ale problem optymalizacji. Warunki KKT w zasadzie dają, że aby współczynnik był niezerowy, musi odpowiadać stałej korelacji z resztkowym ( jest parametrem regularyzacji).| X t j ( y - X β ) | = λ λβj |Xtj(y−Xβ)|=λ λ
Po rozwiązaniu różnych komplikacji z wartością bezwzględną itp., Pozostaje Ci liniowe równanie dla każdego niezerowego współczynnika. Ponieważ ranga macierzy wynosi co najwyżej gdy , jest to liczba równań, które można rozwiązać, a zatem istnieje co najwyżej n niezerowych wartości (chyba że występują nadmiarowości).n p > nX n p>n
Nawiasem mówiąc, dotyczy to każdej funkcji utraty, nie tylko standardowego lassa z utratą . W rzeczywistości jest to właściwość kary lasso. Istnieje wiele artykułów, które pokazują ten widok KKT i wynikające z niego wnioski, mogę wskazać na nasz artykuł: Rosset i Zhu, Piecewise Linear Regularized Solutions Paths, Annals of Stats 2007 i odnośniki tam zawarte.L2
źródło
zmniejszył się.
źródło