Regularyzacja L2 jest równoważna z Prior Gaussa

56

Czytam to i intuicyjnie widzę to, ale jak przejść od regularyzacji L2 do stwierdzenia, że ​​analitycznie jest to Przeor Gaussa? To samo dotyczy twierdzenia, że ​​L1 jest równoważne wcześniejszemu Laplaceanowi.

Wszelkie dalsze odniesienia byłyby świetne.

Anonimowy
źródło

Odpowiedzi:

54

Wyobraźmy sobie, że chcesz wnioskować o pewnym parametrze β podstawie obserwowanych par wejściowo-wyjściowych (x1,y1),(xN,yN) . Załóżmy, że wyjścia są liniowo powiązane z danymi wejściowymi za pośrednictwem β i że dane są uszkodzone przez pewien szum ϵ :

yn=βxn+ϵ,

gdzie ϵ jest szumem Gaussa ze średnią 0 i wariancją σ2 . Daje to prawdopodobieństwo Gaussa:

n=1NN(yn|βxn,σ2).

Uregulujmy parametr β przez nałożenie wcześniejszego gaussowskiego N(β|0,λ1), gdzie λ jest ściśle dodatnim skalarem. Dlatego łącząc prawdopodobieństwo i pierwszeństwo mamy po prostu:

n=1NN(yn|βxn,σ2)N(β|0,λ1).

Weźmy logarytm powyższego wyrażenia. Po upuszczeniu niektórych stałych otrzymujemy:

n=1N1σ2(ynβxn)2λβ2+const.

Jeśli zmaksymalizujemy powyższe wyrażenie w odniesieniu do , otrzymamy tak zwane maksymalne oszacowanie a-posteriori dla β lub w skrócie oszacowanie MAP. W tym wyrażeniu staje się jasne, dlaczego przeor Gaussa można interpretować jako termin regularyzacji L2.ββ


Podobnie związek między normą L1 a wcześniejszym Laplace'a można zrozumieć w ten sam sposób. Weź zamiast przeora Gaussa, przeor Laplace'a połącz to ze swoim prawdopodobieństwem i weź logarytm.

Dobrym odniesieniem (być może nieco zaawansowanym) opisującym oba zagadnienia jest artykuł „Adaptacyjna rzadkość dla nadzorowanego uczenia się”, który obecnie nie wydaje się łatwy do znalezienia w Internecie. Alternatywnie spójrz na „Adaptacyjną rzadkość za pomocą Jeffreys Prior” . Innym dobrym odniesieniem jest „O klasyfikacji bayesowskiej z pierwszeństwem Laplace'a” .

ngiann
źródło
1
Czy w D dimensionprzypadku regresji liniowej mogą betai sigmamają wyraźne rozwiązania? Czytam PRML i znajduję równanie (1.67) na stronie 30 i nie mam pojęcia, jak je rozwiązać. Z największym prawdopodobieństwem rozwiązujemy, betaa następnie sigmaustawiając gradient na zero. W normalizowanym najmniejszym kwadracie, ponieważ niektóre parametry requularyzacji lambdasą znane, my rozwiązujemy betabezpośrednio. Ale jeśli bezpośrednio rozwiązać mapę, jaka jest kolejność rozwiązywania beta, sigma? Czy mogą mieć jednoznaczne rozwiązanie lub musimy zastosować proces iteracyjny?
stackunderflow
λβλβ2
@AdamO Ogranicza liczbę wartości, które mogą przyjąć współczynniki. Jeśli wcześniejsza wartość wynosi na przykład od 1 do 10, wówczas istnieje prawdopodobieństwo, że współczynnik przyjmie dowolną inną wartość, tj. [-Inf do 1] i [10, + inf].
imsrgadich
1
σ2σ2
11

L2

Zauważ, że istnieje bardziej fundamentalna różnica w tym, że tylna Bayesa jest rozkładem prawdopodobieństwa, podczas gdy uregulowane przez Tichonowa rozwiązanie najmniejszych kwadratów jest konkretnym oszacowaniem punktowym.

Jest to omówione w wielu podręcznikach dotyczących Bayesowskich metod odwrotnych problemów, patrz na przykład:

http://www.amazon.com/Inverse-Problem-Methods-Parameter-Estimation/dp/0898715725/

http://www.amazon.com/Parameter-Estimation-Inverse-Problems-Second/dp/0123850487/

L1

Brian Borchers
źródło
9

Pierwsza uwaga, że ​​mediana minimalizuje normę L1 (zobacz tutaj lub tutaj, aby dowiedzieć się więcej na temat L1 i L2)

median(x)=argminsi|xis|1

podczas gdy średnia minimalizuje L2

mean(x)=argminsi|xis|2

μμ


Hurley, WJ (2009) Indukcyjne podejście do obliczania MLE dla podwójnego rozkładu wykładniczego . Dziennik nowoczesnych stosowanych metod statystycznych: 8 ust. 2, art. 25.

Tim
źródło
Być może nie jest to najbardziej rygorystyczna matematycznie odpowiedź podana tutaj, ale jest zdecydowanie najłatwiejsza, najbardziej intuicyjna dla początkujących w regularyzacji L1 / L2.
SQLServerSteve
8

k

minβ(yXβ)(yXβ)

W regresji regulowanej z karą robiszLp

minβ(yXβ)(yXβ)+λi=1k|βi|p

Równie dobrze możemy to zrobić (zwróć uwagę na zmiany znaku)

maxβ(yXβ)(yXβ)λi=1k|βi|p

Odnosi się to bezpośrednio do bayesowskiej zasady

posteriorlikelihood×prior

lub równoważnie (w warunkach prawidłowości)

log(posterior)log(likelihood)+log(penalty)

Teraz nietrudno zobaczyć, która wykładnicza dystrybucja rodziny odpowiada danemu typowi kary.

Georg M. Goerg
źródło
3

Dokładniej mówiąc, równoważność:

Optymalizacja wag modelu w celu zminimalizowania kwadratowej funkcji utraty błędów z regularyzacją L2 jest równoważna znalezieniu wag, które są najprawdopodobniej w rozkładzie bocznym ocenianym za pomocą reguły Bayesa, z zerową średnią niezależną wagą Gaussa przed

Dowód:

Funkcja straty opisana powyżej zostałaby podana przez

L=[n=1N(y(n)fw(x(n)))2]Originallossfunction+λi=1Kwi2L2loss

Zauważ, że rozkład dla wielowymiarowego Gaussa to

N(x;μ,Σ)=1(2π)D/2|Σ|1/2exp(12(xμ)Σ1(xμ))

Stosując zasadę Bayesa, mamy to

p(w|D)=p(D|w)p(w)p(D)p(D|w)p(w)[nNN(y(n);fw(x(n)),σy2)]N(w;0,σw2I)nNN(y(n);fw(x(n)),σy2)i=1KN(wi;0,σw2)

Gdzie jesteśmy w stanie podzielić wielowymiarowego Guassiana na produkt, ponieważ kowariancja jest wielokrotnością macierzy tożsamości.

Weź ujemne prawdopodobieństwo dziennika start

log[p(w|D)]=n=1Nlog[N(y(n);fw(x(n)),σy2)]i=1Klog[N(wi;0,σw2)]+const.=12σy2n=1N(y(n)fw(x(n)))2+12σw2i=1Kwi2+const.

Możemy oczywiście upuścić stałą i pomnożyć przez dowolną kwotę bez zasadniczego wpływu na funkcję straty. (stała nic nie robi, mnożenie skutecznie skaluje szybkość uczenia się. Nie wpłynie na lokalizację minimów). Widzimy więc, że prawdopodobieństwo logarytmu ujemnego rozkładu tylnego jest funkcją straty równoważnej do funkcji straty błędu kwadratowego znormalizowanego L2.

Ta równoważność jest ogólna i dotyczy dowolnej sparametryzowanej funkcji wag - nie tylko regresji liniowej, jak się wydaje powyżej.

nikiel37
źródło
1

Podczas omawiania równoważności niektórych karanych oszacowań maksymalnego prawdopodobieństwa i procedur bayesowskich należy podkreślić dwie cechy modelowania bayesowskiego.

  1. W ramach bayesowskiej przeor wybierany jest na podstawie specyfiki problemu i nie jest motywowany celowością obliczeniową. Dlatego Bayesianie używają różnych priorów, w tym popularnej obecnie podkowy do rzadkich problemów z predyktorami, i nie muszą polegać tak bardzo na priory, które są równoważne z karami L1 lub L2.
  2. Dzięki pełnemu podejściu bayesowskiemu masz dostęp do wszystkich procedur wnioskowania po zakończeniu. Na przykład możesz skwantyfikować dowody na duże współczynniki regresji i uzyskać wiarygodne przedziały na współczynniki regresji i ogólne przewidywane wartości. W frakcjonistycznych ramach, gdy wybierzesz karę, tracisz całą maszynę wnioskowania.
Frank Harrell
źródło