Przeglądałem literaturę na temat regularyzacji i często widzę akapity, które łączą regulację L2 z przełożeniem Gaussa i L1 z Laplace'em wyśrodkowanym na zero.
Wiem, jak wyglądają te priory, ale nie rozumiem, jak to przekłada się na przykład na wagi w modelu liniowym. W L1, jeśli dobrze rozumiem, oczekujemy rzadkich rozwiązań, tj. Niektóre wagi zostaną przesunięte do dokładnie zerowego. W L2 otrzymujemy małe ciężary, ale nie ciężary zerowe.
Ale dlaczego tak się dzieje?
Proszę o komentarz, jeśli muszę podać więcej informacji lub wyjaśnić swoją ścieżkę myślenia.
regression
bayesian
prior
regularization
laplace-distribution
Dmitrij Smirnov
źródło
źródło
Odpowiedzi:
Zależność rozkładu Laplace'a przed medianą (lub normą L1) został znaleziony przez samego Laplace'a, który stwierdził, że stosując taki wcześniej szacuje się medianę zamiast średniej jak w przypadku rozkładu Normalnego (patrz Stingler, 1986 lub Wikipedia ). Oznacza to, że regresja z rozkładem błędów Laplace'a szacuje medianę (jak np. Regresja kwantylowa), podczas gdy błędy normalne odnoszą się do oszacowania OLS.
Mocne priory, o które pytałeś, zostały również opisane przez Tibshirani (1996), który zauważył, że mocna regresja Lassa w ustawieniach bayesowskich jest równoważna użyciu wcześniejszego Laplace'a. Taki wcześniejszy współczynnik jest wyśrodkowany wokół zera (ze zmiennymi wyśrodkowanymi) i ma szerokie ogony - więc większość współczynników regresji oszacowanych przy jego użyciu kończy się dokładnie na zero. Jest to jasne, jeśli przyjrzysz się uważnie poniższemu obrazowi, rozkład Laplace'a ma pik wokół zera (jest większa masa rozkładu), podczas gdy rozkład normalny jest bardziej rozproszony wokół zera, więc wartości niezerowe mają większą masę prawdopodobieństwa. Inne możliwości dla solidnych priorów to Cauchy'ego lub - rozkłady.t
Korzystając z takich priorów, jesteś bardziej skłonny do uzyskania wielu zerowych współczynników, niektórych umiarkowanych i niektórych dużych (długi ogon), podczas gdy z normalnym przed otrzymujesz więcej umiarkowanych współczynników, które raczej nie są dokładnie zerowe, ale także nie tak daleko od zera.
(źródło obrazu Tibshirani, 1996)
Stigler, SM (1986). Historia statystyki: pomiar niepewności przed 1900 r. Cambridge, MA: Belknap Press z Harvard University Press.
Tibshirani, R. (1996). Skurcz regresji i selekcja poprzez lasso. Journal of the Royal Statistics Society. Seria B (metodologiczna), 267-288.
Gelman, A., Jakulin, A., Pittau, GM, i Su, Y.-S. (2008). Słabo informacyjna domyślna wcześniejsza dystrybucja modeli logistycznych i innych modeli regresji. The Annals of Applied Statistics, 2 (4), 1360-1383.
Norton, RM (1984). Podwójny rozkład wykładniczy: użycie rachunku różniczkowego do znalezienia estymatora maksymalnego prawdopodobieństwa. The American Statistician, 38 (2): 135–136.
źródło
Widok dla częstotliwości 👀
W pewnym sensie możemy myśleć o obu regularyzacjach jako o „zmniejszaniu ciężarów” ; L2 minimalizuje euklidesową normę odważników, a L1 minimalizuje normę Manhattanu. Kierując się tym tokiem myślenia, możemy wnioskować, że ekwipotencjały L1 i L2 są odpowiednio kuliste i mają kształt rombu, więc L1 jest bardziej prawdopodobne, że doprowadzi do rzadkich rozwiązań, jak pokazano w Bishop's Pattern Recognition and Machine Learning :
Widok bayesowski 👀
Jednak, aby zrozumieć, w jaki sposób priors odnoszą się do modelu liniowego , musimy zrozumieć Bayesa interpretację zwykłej regresji liniowej . Blog Katherine Bailey jest do tego znakomitą lekturą. Krótko mówiąc, w naszym modelu liniowym zakładamy normalnie rozłożone błędy id
Jak się okazuje ... Estymator największego prawdopodobieństwa jest identyczny z minimalizowaniem błędu kwadratu między przewidywanymi a rzeczywistymi wartościami wyjściowymi przy założeniu normalności błędu.
Regularyzacja jako nakładanie priorytetów na wagi
Gdybyśmy umieścili nierównomierne uprzednio na wagach regresji liniowej, maksymalne oszacowanie prawdopodobieństwa a posteriori (MAP) wynosi:
Jak wynika z postu na blogu Briana Kenga , jeśli jest rozkładem Laplace'a, jest to równoważne z regularyzacją L1 na .P.( θ ) θ
Podobnie, jeśli jest rozkładem Gaussa, jest to równoważne z regularyzacją L2 na .P.( θ ) θ
Teraz mamy inne spojrzenie na to, dlaczego umieszczenie Laplace'a na wadze bardziej prawdopodobne jest wywołanie rzadkości: ponieważ rozkład Laplace'a jest bardziej skoncentrowany wokół zera , nasze wagi są większe od zera.
źródło