Myślałem o rozwiązaniu Lasso metodami waniliowymi. Ale czytałem osoby sugerujące użycie Proksymalnego spadku gradientu. Czy ktoś może wyjaśnić, dlaczego dla Lasso można zastosować bliższe GD zamiast waniliowych metod podskładnikowych?
Myślałem o rozwiązaniu Lasso metodami waniliowymi. Ale czytałem osoby sugerujące użycie Proksymalnego spadku gradientu. Czy ktoś może wyjaśnić, dlaczego dla Lasso można zastosować bliższe GD zamiast waniliowych metod podskładnikowych?
Przybliżone rozwiązanie rzeczywiście można znaleźć dla lasso za pomocą metod podrzędnych. Powiedzmy, że chcemy zminimalizować następującą funkcję utraty:
Gradient kary umownej wynosi dla i dla , ale kary nie można odróżnić przy . Zamiast tego możemy użyć podgradient , który jest taki sam, ale ma wartość dla .
Odpowiednim podrzędnym elementem funkcji straty jest:
Możemy zminimalizować funkcję straty, stosując podejście podobne do spadku gradientu, ale używając podskładnika (który jest równy gradientowi wszędzie oprócz , gdzie gradient jest niezdefiniowany). Rozwiązanie może być bardzo zbliżone do prawdziwego rozwiązania lasso, ale może nie zawierać dokładnych zer - tam, gdzie wagi powinny wynosić zero, przyjmują one wyjątkowo małe wartości. Ten brak prawdziwej rzadkości jest jednym z powodów, dla których nie należy stosować podrzędnych metod dla lasso. Dedykowane solwery wykorzystują strukturę problemu do tworzenia naprawdę rzadkich rozwiązań w sposób efektywny obliczeniowo. Ten postmówi, że oprócz tworzenia rzadkich rozwiązań, metody dedykowane (w tym metody gradientu proksymalnego) mają szybsze współczynniki konwergencji niż metody podporządkowane. Podaje kilka referencji.