Dlaczego widzimy tylko regularyzację

Jestem tylko ciekawy, dlaczego zwykle norm i . Czy istnieją dowody, dlaczego są one lepsze? $L_1$ $L_2$

lasso regularization ridge-regression użytkownik10024395
źródło

(+1) Nie zbadałem tego pytania konkretnie, ale doświadczenie z podobnymi sytuacjami sugeruje, że może istnieć ładna odpowiedź jakościowa: wszystkie normy, które są drugą różnicowalnością u źródła, będą lokalnie równoważne sobie, z których norma jest standardem. Wszystkie inne normy nie będą się różnicować u źródła, a jakościowo odtwarza ich zachowanie. To obejmuje gamę. W efekcie liniowa kombinacja normy i przybliża dowolną normę do drugiego rzędu u źródła - i to jest najważniejsze w regresji bez pozostających resztek.

L^{2}

$L^2$

L^{1}

$L^1$

L^{1}

$L^1$

L^{2}

$L^2$

whuber

Tak: jest to zasadniczo twierdzenie Taylora.

whuber

pytania jest fałszywa: używane są inne -normy, aczkolwiek znacznie rzadziej.

ℓ_{p}

$\ell_p$

Firebug

Kombinacja liniowa wspomniana przez @whuber jest często nazywana siatką elastyczną .

Luca Citi,

Ponadto, wśród norm Lp, również ma duży przebieg.

L^{\infty}

$L^\infty$

user795305

Odpowiedzi:

Oprócz komentarzy @ whuber (*).

Książka Hastie i in. Statystyczne uczenie się ze Sparsity omawia to. Używają również tak zwanej „normy” (znaki cudzysłowu, ponieważ nie jest to norma w ścisłym sensie matematycznym (**)), która po prostu zlicza liczbę niezerowych składników wektora. $L_0$

W tym sensie do selekcji zmiennych stosuje się normę , ale wraz z normami z nie jest wypukła, więc trudno ją zoptymalizować. Twierdzą, (argument myślę pochodzą z Donohoe w sprężonym sensing), że normą, to znaczy, lasso, jest najlepszym convexification z „normy” ( „najbliższy wypukły rozluźnienie najlepszy wybór podzbioru”). Ta książka odwołuje się także do niektórych zastosowań innych norm . Kula jednostkowa w -norm z wygląda następująco $L_0$ $l_q$ $q<1$ $L_1$ $L_0$ $L_q$ $l_q$ $q<1$

(zdjęcie z wikipedii), a obrazowym wyjaśnieniem, dlaczego lasso może zapewnić wybór zmiennych

Ten obraz pochodzi z wyżej wymienionej książki. Widać, że w przypadku lasso (kula jednostkowa narysowana jako diament) jest znacznie bardziej prawdopodobne, że elipsoidalne (suma kwadratów) kontury najpierw dotkną diamentu w jednym z rogów. W przypadku niewypukłego przypadku (figura pierwszej jednostki) jest jeszcze bardziej prawdopodobne, że pierwszy dotyk między elipsoidą a jednostką kuli będzie w jednym z rogów, więc obudowa będzie podkreślać zmienny wybór nawet bardziej niż lasso.

Jeśli spróbujesz tego „lasso z niewypukłą karą” w google, dostaniesz dużo dokumentów, które robią problemy podobne do lasso z niewypukłą karą, takie jak z . $l_q$ $q < 1$

(*) Dla kompletności kopiuję tutaj komentarze Whubera:

Nie badali to pytanie konkretnie, ale doświadczenie z podobnych sytuacjach sugeruje, że może być miłym odpowiedź jakościowe: wszystkie normy, które są sekundy różniczkowalna w punkcie początkowym będzie lokalnie równoważne do siebie, z których normą jest norma. Wszystkie inne normy nie będą się różnicować u źródła, a jakościowo odtwarza ich zachowanie. To obejmuje gamę. W efekcie liniowa kombinacja normy i przybliża dowolną normę do drugiego rzędu u źródła - i to jest najważniejsze w regresji bez pozostających resztek. $L_2$ $L_1$ $L_1$ $L_2$

$l_0$ $\alpha \ge 0$ $\| \alpha x \| = \alpha \| x \|$

kjetil b halvorsen
źródło

@kjetilbhalvorsen Dziękujemy za głęboką odpowiedź. Wybieram nietypowy indeks górny, aby zachować spójność z pytaniem i tytułem. Oczywiście możesz napisać to tak, jak lubisz.

Ferdi,

@kjetilbhalvorsen Czy możesz trochę rozwinąć komentarz Whubera? Powszechnie wiadomo, że norma

nie jest różniczkowalna u źródła ( na przykład

). Nie jest też jasne, co należy rozumieć przez „lokalną równoważność” norm. Potrzebne są referencje.

L^{2}

$L^2$

x \mapsto | x |

$x \mapsto |x|$

Olivier

@Olivier

-norm jest różniczkowalna w punkcie początkowym, myślisz o

-norm.

ℓ_{2}

$\ell_2$

ℓ_{1}

$\ell_1$

Firebug

@ Firebug Nie. Myślę o normie

w 1 wymiarze, która jest taka sama jak norma

. Czy coś brakuje?

L^{2}

$L^2$

L^{1}

$L^1$

Olivier

@Olivier Oh, masz rację. Źle zrozumiałem, ponieważ kwadrat

normalny jest faktycznie używany i wszędzie można go rozróżnić.

ℓ_{2}

$\ell_2$

Firebug

Myślę, że odpowiedź na pytanie zależy w dużej mierze od tego, jak zdefiniujesz „lepiej”. Jeśli dobrze interpretuję, chcesz wiedzieć, dlaczego normy te pojawiają się tak często w porównaniu do innych opcji. W tym przypadku odpowiedzią jest prostota. Intuicja regularyzacji polega na tym, że mam jakiś wektor i chciałbym, aby ten wektor był w pewnym sensie „mały”. Jak opisujesz rozmiar wektora? Masz do wyboru:

Czy liczysz, ile ma elementów ? $(L_0)$
Czy sumujesz wszystkie elementy ? $(L_1)$
Czy mierzysz, jak „długa” jest „strzałka” ? $(L_2)$
Czy używasz wielkości największego elementu ? $(L_\infty)$

Możesz zastosować alternatywne normy, takie jak , ale nie mają one przyjaznych, fizycznych interpretacji takich jak te powyżej. $L_3$

Na tej liście norma ma ładne, zamknięte rozwiązania analityczne dla rzeczy takich jak problemy z najmniejszymi kwadratami. Zanim będziesz mieć nieograniczoną moc obliczeniową, nikt nie byłby w stanie poczynić znaczących postępów. Spekulowałbym, że wizualna „długość strzałki” jest również bardziej atrakcyjna dla ludzi niż inne miary wielkości. Mimo że wybrana przez ciebie norma regularyzacji ma wpływ na rodzaje pozostałości, które otrzymujesz dzięki optymalnemu rozwiązaniu, nie sądzę, aby większość ludzi a) zdawała sobie z tego sprawę lub b) rozważała to głęboko przy formułowaniu swojego problemu. W tym momencie spodziewam się, że większość ludzi nadal używa ponieważ jest to „to, co wszyscy robią”. $L_2$ $L_2$

Analogia byłaby funkcja wykładnicza, - to pokazuje się dosłownie wszędzie w fizyce, ekonomii, statystyki, uczenia maszynowego lub jakiejkolwiek innej dziedzinie matematycznie napędzanej. Zastanawiałem się na zawsze, dlaczego wszystko w życiu wydaje się opisywane wykładniczo, dopóki nie zdałem sobie sprawy, że my, ludzie, po prostu nie mamy tylu sztuczek. Potęgi wykładnicze mają bardzo przydatne właściwości do wykonywania algebry i rachunku różniczkowego i całkowego, więc stają się funkcją nr 1 w przyborniku każdego matematyka, gdy próbują modelować coś w świecie rzeczywistym. Może być tak, że rzeczy takie jak czas dekoherencji są „lepiej” opisane przez wielomian wysokiego rzędu, ale są one stosunkowo trudniejsze do wykonania z algebrą, $e^x$

W przeciwnym razie wybór normy ma bardzo subiektywne skutki i od ciebie, jako osoby, która określa problem, zależy, czy wybierzesz optymalne rozwiązanie. Czy zależy Ci bardziej na tym, aby wszystkie komponenty w wektorze rozwiązania były podobne pod względem wielkości, czy też aby rozmiar największego komponentu był jak najmniejszy? Wybór będzie zależeć od konkretnego problemu, który rozwiążesz.

Czerwona panda
źródło

$L_1$ $L_2$ $L_1$

$L_2$ $n$ $\|A\mathbf{x}-\mathbf{b}\|^2+ \|\Gamma \mathbf{x}\|^2$ $L_2$

$L_0$ $L_p$ $L_\infty$

Carl
źródło