Związek między sformułowaniami Lasso

9

To pytanie może być głupie, ale zauważyłem, że istnieją dwie różne formuły regresji Lasso . Wiemy, że problemem Lasso jest zminimalizowanie celu polegającego na stracie kwadratowej powiększonej o karę -1, wyrażoną w następujący sposób: L

minβyXβ22+λβ1

Ale często widziałem estymator Lasso jako

β^n(λ)=argminβ{12nyXβ22+λβ1}

Moje pytanie brzmi, czy są równoważne? Gdzie pojawia się termin 12n ? Związki między tymi dwoma sformułowaniami nie są dla mnie oczywiste.

[Aktualizacja] Chyba inne pytanie, które powinienem zadać, to:

Dlaczego jest drugi preparat? Jaka jest zaleta, teoretycznie lub obliczeniowo, sformułowania problemu w ten sposób?

Aaron Zeng
źródło
2
Jeśli ustawisz w drugim preparacie równym razy w pierwszym preparacie, wówczas funkcja celu w drugim preparacie jest równa razy funkcja celu w pierwszym preparacie. W efekcie zmieniłeś jedynie jednostki miary straty. Jak twoim zdaniem zmieniłoby to optymalne wartości ? λ1/(2n)λ1/(2n)β
whuber
Dzięki, @Whuber. Ma to sens dla mnie. Dlaczego więc istnieje ten drugi preparat? Jaka jest zaleta, teoretycznie lub obliczeniowo, sformułowania problemu w ten sposób?
Aaron Zeng

Odpowiedzi:

10

Są one rzeczywiście równoważne, ponieważ zawsze można przeskalować (patrz także komentarz @ Whuber). Z teoretycznego punktu widzenia jest to kwestia wygody, ale o ile wiem, nie jest to konieczne. Z perspektywy obliczeniowej uważam, że dość irytujące, więc zwykle używam pierwszego sformułowania, jeśli projektuję algorytm, który wykorzystuje regularyzację.λ1/(2n)

Trochę historii: Kiedy zacząłem uczyć się o metodach karanych, denerwowałem się noszeniem wszędzie w mojej pracy, więc wolałem to zignorować - nawet uprościło niektóre moje obliczenia. W tym czasie moja praca była głównie obliczeniowa. Niedawno robiłem prace teoretyczne i znalazłem niezbędny (nawet w porównaniu, powiedzmy, ).1/(2n)1/(2n)1/n

Więcej szczegółów: Kiedy próbujesz przeanalizować zachowanie Lasso jako funkcję wielkości próby , często masz do czynienia z sumami zmiennych losowych iid, a w praktyce wygodniej jest analizować takie sumy po normalizacji przez - -myśl prawo wielkich liczb / centralne twierdzenie graniczne (lub jeśli chcesz uzyskać fantazję, koncentrację miary i empiryczną teorię procesu). Jeśli nie masz warunku przed stratą, ostatecznie kończysz przeskalowywanie czegoś pod koniec analizy, więc ogólnie lepiej jest mieć to na początek. jest wygodne, ponieważ odwołuje się kilka irytujących czynnikównn1/n1/22 w analizie (np. gdy weźmiesz pochodną kwadratu terminu straty).

Innym sposobem myślenia o tym jest to, że robiąc teorię, jesteśmy ogólnie zainteresowani zachowaniem rozwiązań w miarę wzrostu - to znaczy nie jest jakąś stałą wielkością. W praktyce, gdy uruchamiamy Lasso na jakimś stałym zestawie danych, jest rzeczywiście ustalone z perspektywy algorytmu / obliczeń. Tak więc dodatkowy czynnik normalizujący z przodu nie jest aż tak pomocny.nnn

Może to wydawać się irytujące dla wygody, ale po spędzeniu wystarczająco dużo czasu na manipulowaniu tego rodzaju nierównościami, nauczyłem się kochać .1/(2n)

JohnA
źródło
3
Kiedy uświadomisz sobie, do czego służą te normalizujące stałe, zaczniesz je widzieć wszędzie .
Matthew Drury,
Dziękuję za to wyjaśnienie. Z dumą czytamy Twoje wspaniałe doświadczenia w tej dziedzinie. Jeszcze raz dziękuję
Christina,