To pytanie może być głupie, ale zauważyłem, że istnieją dwie różne formuły regresji Lasso . Wiemy, że problemem Lasso jest zminimalizowanie celu polegającego na stracie kwadratowej powiększonej o karę -1, wyrażoną w następujący sposób:
Ale często widziałem estymator Lasso jako
Moje pytanie brzmi, czy są równoważne? Gdzie pojawia się termin ? Związki między tymi dwoma sformułowaniami nie są dla mnie oczywiste.
[Aktualizacja] Chyba inne pytanie, które powinienem zadać, to:
Dlaczego jest drugi preparat? Jaka jest zaleta, teoretycznie lub obliczeniowo, sformułowania problemu w ten sposób?
Odpowiedzi:
Są one rzeczywiście równoważne, ponieważ zawsze można przeskalować (patrz także komentarz @ Whuber). Z teoretycznego punktu widzenia jest to kwestia wygody, ale o ile wiem, nie jest to konieczne. Z perspektywy obliczeniowej uważam, że dość irytujące, więc zwykle używam pierwszego sformułowania, jeśli projektuję algorytm, który wykorzystuje regularyzację.λ 1/(2n)
Trochę historii: Kiedy zacząłem uczyć się o metodach karanych, denerwowałem się noszeniem wszędzie w mojej pracy, więc wolałem to zignorować - nawet uprościło niektóre moje obliczenia. W tym czasie moja praca była głównie obliczeniowa. Niedawno robiłem prace teoretyczne i znalazłem niezbędny (nawet w porównaniu, powiedzmy, ).1/(2n) 1/(2n) 1/n
Więcej szczegółów: Kiedy próbujesz przeanalizować zachowanie Lasso jako funkcję wielkości próby , często masz do czynienia z sumami zmiennych losowych iid, a w praktyce wygodniej jest analizować takie sumy po normalizacji przez - -myśl prawo wielkich liczb / centralne twierdzenie graniczne (lub jeśli chcesz uzyskać fantazję, koncentrację miary i empiryczną teorię procesu). Jeśli nie masz warunku przed stratą, ostatecznie kończysz przeskalowywanie czegoś pod koniec analizy, więc ogólnie lepiej jest mieć to na początek. jest wygodne, ponieważ odwołuje się kilka irytujących czynnikówn n 1/n 1/2 2 w analizie (np. gdy weźmiesz pochodną kwadratu terminu straty).
Innym sposobem myślenia o tym jest to, że robiąc teorię, jesteśmy ogólnie zainteresowani zachowaniem rozwiązań w miarę wzrostu - to znaczy nie jest jakąś stałą wielkością. W praktyce, gdy uruchamiamy Lasso na jakimś stałym zestawie danych, jest rzeczywiście ustalone z perspektywy algorytmu / obliczeń. Tak więc dodatkowy czynnik normalizujący z przodu nie jest aż tak pomocny.n n n
Może to wydawać się irytujące dla wygody, ale po spędzeniu wystarczająco dużo czasu na manipulowaniu tego rodzaju nierównościami, nauczyłem się kochać .1/(2n)
źródło