Dlaczego zejście w gradiencie proksymalnym zamiast prostych metod podrzędnych dla Lasso?

9

Myślałem o rozwiązaniu Lasso metodami waniliowymi. Ale czytałem osoby sugerujące użycie Proksymalnego spadku gradientu. Czy ktoś może wyjaśnić, dlaczego dla Lasso można zastosować bliższe GD zamiast waniliowych metod podskładnikowych?

CKM
źródło

Odpowiedzi:

14

Przybliżone rozwiązanie rzeczywiście można znaleźć dla lasso za pomocą metod podrzędnych. Powiedzmy, że chcemy zminimalizować następującą funkcję utraty:

fa(w;λ)=y-Xw2)2)+λw1

Gradient kary umownej wynosi -λ dla wja<0 i λ dla wja>0 , ale kary nie można odróżnić przy 0 . Zamiast tego możemy użyć podgradient λsgn(w) , który jest taki sam, ale ma wartość 0 dla wja=0 .

Odpowiednim podrzędnym elementem funkcji straty jest:

sol(w;λ)=-2)XT.(y-Xw)+λsgn(w)

Możemy zminimalizować funkcję straty, stosując podejście podobne do spadku gradientu, ale używając podskładnika (który jest równy gradientowi wszędzie oprócz , gdzie gradient jest niezdefiniowany). Rozwiązanie może być bardzo zbliżone do prawdziwego rozwiązania lasso, ale może nie zawierać dokładnych zer - tam, gdzie wagi powinny wynosić zero, przyjmują one wyjątkowo małe wartości. Ten brak prawdziwej rzadkości jest jednym z powodów, dla których nie należy stosować podrzędnych metod dla lasso. Dedykowane solwery wykorzystują strukturę problemu do tworzenia naprawdę rzadkich rozwiązań w sposób efektywny obliczeniowo. Ten post0mówi, że oprócz tworzenia rzadkich rozwiązań, metody dedykowane (w tym metody gradientu proksymalnego) mają szybsze współczynniki konwergencji niż metody podporządkowane. Podaje kilka referencji.

user20160
źródło