23

Przeglądałem literaturę na temat regularyzacji i często widzę akapity, które łączą regulację L2 z przełożeniem Gaussa i L1 z Laplace'em wyśrodkowanym na zero.

Wiem, jak wyglądają te priory, ale nie rozumiem, jak to przekłada się na przykład na wagi w modelu liniowym. W L1, jeśli dobrze rozumiem, oczekujemy rzadkich rozwiązań, tj. Niektóre wagi zostaną przesunięte do dokładnie zerowego. W L2 otrzymujemy małe ciężary, ale nie ciężary zerowe.

Ale dlaczego tak się dzieje?

Proszę o komentarz, jeśli muszę podać więcej informacji lub wyjaśnić swoją ścieżkę myślenia.

regression bayesian prior regularization laplace-distribution Dmitrij Smirnov
źródło

Powiązane: Dlaczego kara Lasso jest równoważna podwójnemu wykładniczemu (Laplaceowi) przedtem?

ameba mówi Przywróć Monikę

1

Naprawdę proste intuicyjne wyjaśnienie polega na tym, że kara zmniejsza się przy stosowaniu normy L2, ale nie przy stosowaniu normy L1. Jeśli więc możesz zachować część modelu funkcji straty na zbliżonym poziomie i możesz to zrobić, zmniejszając jedną z dwóch zmiennych, lepiej zmniejszyć zmienną o wysokiej wartości bezwzględnej w przypadku L2, ale nie w przypadku L1.

testuser

21

Zależność rozkładu Laplace'a przed medianą (lub normą L1) został znaleziony przez samego Laplace'a, który stwierdził, że stosując taki wcześniej szacuje się medianę zamiast średniej jak w przypadku rozkładu Normalnego (patrz Stingler, 1986 lub Wikipedia ). Oznacza to, że regresja z rozkładem błędów Laplace'a szacuje medianę (jak np. Regresja kwantylowa), podczas gdy błędy normalne odnoszą się do oszacowania OLS.

Mocne priory, o które pytałeś, zostały również opisane przez Tibshirani (1996), który zauważył, że mocna regresja Lassa w ustawieniach bayesowskich jest równoważna użyciu wcześniejszego Laplace'a. Taki wcześniejszy współczynnik jest wyśrodkowany wokół zera (ze zmiennymi wyśrodkowanymi) i ma szerokie ogony - więc większość współczynników regresji oszacowanych przy jego użyciu kończy się dokładnie na zero. Jest to jasne, jeśli przyjrzysz się uważnie poniższemu obrazowi, rozkład Laplace'a ma pik wokół zera (jest większa masa rozkładu), podczas gdy rozkład normalny jest bardziej rozproszony wokół zera, więc wartości niezerowe mają większą masę prawdopodobieństwa. Inne możliwości dla solidnych priorów to Cauchy'ego lub - rozkłady. $t$

Korzystając z takich priorów, jesteś bardziej skłonny do uzyskania wielu zerowych współczynników, niektórych umiarkowanych i niektórych dużych (długi ogon), podczas gdy z normalnym przed otrzymujesz więcej umiarkowanych współczynników, które raczej nie są dokładnie zerowe, ale także nie tak daleko od zera.

(źródło obrazu Tibshirani, 1996)

Stigler, SM (1986). Historia statystyki: pomiar niepewności przed 1900 r. Cambridge, MA: Belknap Press z Harvard University Press.

Tibshirani, R. (1996). Skurcz regresji i selekcja poprzez lasso. Journal of the Royal Statistics Society. Seria B (metodologiczna), 267-288.

Gelman, A., Jakulin, A., Pittau, GM, i Su, Y.-S. (2008). Słabo informacyjna domyślna wcześniejsza dystrybucja modeli logistycznych i innych modeli regresji. The Annals of Applied Statistics, 2 (4), 1360-1383.

Norton, RM (1984). Podwójny rozkład wykładniczy: użycie rachunku różniczkowego do znalezienia estymatora maksymalnego prawdopodobieństwa. The American Statistician, 38 (2): 135–136.

Tim
źródło

Wow, to jest bardzo dobre wytłumaczenie, a także specjalne podziękowania za powiązane pytanie, w którym normy regularyzacji są intuicyjnie powiązane z trybem, meadyjskim i średnim, to dla mnie naprawdę wiele wyjaśnia!

Dmitrij Smirnov

1

@Tim, rozkład Cauchy'ego ma ciężki ogon, ale prawdopodobieństwo zerowego rozkładu jest mniejsze niż rozkład normalny. Jak to się stało, że wywołało rzadkie rozwiązanie?

Royi,

5

Widok dla częstotliwości 👀

W pewnym sensie możemy myśleć o obu regularyzacjach jako o „zmniejszaniu ciężarów” ; L2 minimalizuje euklidesową normę odważników, a L1 minimalizuje normę Manhattanu. Kierując się tym tokiem myślenia, możemy wnioskować, że ekwipotencjały L1 i L2 są odpowiednio kuliste i mają kształt rombu, więc L1 jest bardziej prawdopodobne, że doprowadzi do rzadkich rozwiązań, jak pokazano w Bishop's Pattern Recognition and Machine Learning :

Widok bayesowski 👀

Jednak, aby zrozumieć, w jaki sposób priors odnoszą się do modelu liniowego , musimy zrozumieć Bayesa interpretację zwykłej regresji liniowej . Blog Katherine Bailey jest do tego znakomitą lekturą. Krótko mówiąc, w naszym modelu liniowym zakładamy normalnie rozłożone błędy id

y = θ^{⊤} X + ϵ

$\mathbf{y} = \mathbf{\theta}^\top\mathbf{X} + \mathbf\epsilon$

$N$ $y_i, i = 1, 2, \ldots, N$ $\epsilon_k\sim \mathcal{N}(0,\sigma)$

$\mathbf{y}$

p (y | X, θ; ϵ) = N (θ^{⊤} X, σ)

$\begin{equation} p(\mathbf{y}|\mathbf{X}, \mathbf{\theta}; \mathbf{\epsilon}) = \mathcal{N}(\mathbf{\theta}^\top\mathbf{X}, \mathbf{\sigma}) \end{equation}$

Jak się okazuje ... Estymator największego prawdopodobieństwa jest identyczny z minimalizowaniem błędu kwadratu między przewidywanymi a rzeczywistymi wartościami wyjściowymi przy założeniu normalności błędu.

\begin{aligned} {\hat{θ}}_{MLE} & = \arg max_{θ} \log P (y | θ) \\ = \underset{θ}{\arg min} \sum_{i = 1}^{n} (y_{i} - θ^{⊤} x_{i})^{2} \end{aligned}

$\begin{align*} {\bf \hat{\theta}_{\text{MLE}}} &= \arg\max_{\bf \theta} \log P(y | \theta) \\ &=\underset{\theta}{\arg\min} \sum_{i=1}^n(y_i - \theta^\top{\mathbf{x}_i})^2 \end{align*}$

Regularyzacja jako nakładanie priorytetów na wagi

Gdybyśmy umieścili nierównomierne uprzednio na wagach regresji liniowej, maksymalne oszacowanie prawdopodobieństwa a posteriori (MAP) wynosi:

{\hat{θ}}_{MAP} = \arg max_{θ} \log P (y | θ) + \log P (θ)

$\begin{equation*} {\bf \hat{\theta}_{\text{MAP}}} = \arg\max_{\bf \theta} \log P(y | \theta) + \log P(\theta) \end{equation*}$

Jak wynika z postu na blogu Briana Kenga , jeśli jest rozkładem Laplace'a, jest to równoważne z regularyzacją L1 na . $P(\theta)$ $\theta$

Podobnie, jeśli jest rozkładem Gaussa, jest to równoważne z regularyzacją L2 na . $P(\theta)$ $\theta$

Teraz mamy inne spojrzenie na to, dlaczego umieszczenie Laplace'a na wadze bardziej prawdopodobne jest wywołanie rzadkości: ponieważ rozkład Laplace'a jest bardziej skoncentrowany wokół zera , nasze wagi są większe od zera.

Christabella Irwanto
źródło

Dlaczego Laplace produkuje rzadkie rozwiązania?

Odpowiedzi:

Widok dla częstotliwości 👀

Widok bayesowski 👀

Regularyzacja jako nakładanie priorytetów na wagi