Wyobraźmy sobie, że chcesz wnioskować o pewnym parametrze β podstawie obserwowanych par wejściowo-wyjściowych (x1,y1)…,(xN,yN) . Załóżmy, że wyjścia są liniowo powiązane z danymi wejściowymi za pośrednictwem β i że dane są uszkodzone przez pewien szum ϵ :
yn=βxn+ϵ,
gdzie ϵ jest szumem Gaussa ze średnią 0 i wariancją σ2 . Daje to prawdopodobieństwo Gaussa:
∏n=1NN(yn|βxn,σ2).
Uregulujmy parametr β przez nałożenie wcześniejszego gaussowskiego N(β|0,λ−1), gdzie λ jest ściśle dodatnim skalarem. Dlatego łącząc prawdopodobieństwo i pierwszeństwo mamy po prostu:
∏n=1NN(yn|βxn,σ2)N(β|0,λ−1).
Weźmy logarytm powyższego wyrażenia. Po upuszczeniu niektórych stałych otrzymujemy:
∑n=1N−1σ2(yn−βxn)2−λβ2+const.
Jeśli zmaksymalizujemy powyższe wyrażenie w odniesieniu do , otrzymamy tak zwane maksymalne oszacowanie a-posteriori dla β lub w skrócie oszacowanie MAP. W tym wyrażeniu staje się jasne, dlaczego przeor Gaussa można interpretować jako termin regularyzacji L2.ββ
Podobnie związek między normą L1 a wcześniejszym Laplace'a można zrozumieć w ten sam sposób. Weź zamiast przeora Gaussa, przeor Laplace'a połącz to ze swoim prawdopodobieństwem i weź logarytm.
Dobrym odniesieniem (być może nieco zaawansowanym) opisującym oba zagadnienia jest artykuł „Adaptacyjna rzadkość dla nadzorowanego uczenia się”, który obecnie nie wydaje się łatwy do znalezienia w Internecie. Alternatywnie spójrz na „Adaptacyjną rzadkość za pomocą Jeffreys Prior” . Innym dobrym odniesieniem jest „O klasyfikacji bayesowskiej z pierwszeństwem Laplace'a” .
D dimension
przypadku regresji liniowej mogąbeta
isigma
mają wyraźne rozwiązania? Czytam PRML i znajduję równanie (1.67) na stronie 30 i nie mam pojęcia, jak je rozwiązać. Z największym prawdopodobieństwem rozwiązujemy,beta
a następniesigma
ustawiając gradient na zero. W normalizowanym najmniejszym kwadracie, ponieważ niektóre parametry requularyzacjilambda
są znane, my rozwiązujemybeta
bezpośrednio. Ale jeśli bezpośrednio rozwiązać mapę, jaka jest kolejność rozwiązywaniabeta
,sigma
? Czy mogą mieć jednoznaczne rozwiązanie lub musimy zastosować proces iteracyjny?Zauważ, że istnieje bardziej fundamentalna różnica w tym, że tylna Bayesa jest rozkładem prawdopodobieństwa, podczas gdy uregulowane przez Tichonowa rozwiązanie najmniejszych kwadratów jest konkretnym oszacowaniem punktowym.
Jest to omówione w wielu podręcznikach dotyczących Bayesowskich metod odwrotnych problemów, patrz na przykład:
http://www.amazon.com/Inverse-Problem-Methods-Parameter-Estimation/dp/0898715725/
http://www.amazon.com/Parameter-Estimation-Inverse-Problems-Second/dp/0123850487/
źródło
Pierwsza uwaga, że mediana minimalizuje normę L1 (zobacz tutaj lub tutaj, aby dowiedzieć się więcej na temat L1 i L2)
podczas gdy średnia minimalizuje L2
Hurley, WJ (2009) Indukcyjne podejście do obliczania MLE dla podwójnego rozkładu wykładniczego . Dziennik nowoczesnych stosowanych metod statystycznych: 8 ust. 2, art. 25.
źródło
W regresji regulowanej z karą robiszLp
Równie dobrze możemy to zrobić (zwróć uwagę na zmiany znaku)
Odnosi się to bezpośrednio do bayesowskiej zasady
lub równoważnie (w warunkach prawidłowości)
Teraz nietrudno zobaczyć, która wykładnicza dystrybucja rodziny odpowiada danemu typowi kary.
źródło
Dokładniej mówiąc, równoważność:
Optymalizacja wag modelu w celu zminimalizowania kwadratowej funkcji utraty błędów z regularyzacją L2 jest równoważna znalezieniu wag, które są najprawdopodobniej w rozkładzie bocznym ocenianym za pomocą reguły Bayesa, z zerową średnią niezależną wagą Gaussa przed
Dowód:
Funkcja straty opisana powyżej zostałaby podana przez
Zauważ, że rozkład dla wielowymiarowego Gaussa toN(x;μ,Σ)=1(2π)D/2|Σ|1/2exp(−12(x−μ)⊤Σ−1(x−μ))
Stosując zasadę Bayesa, mamy to
Gdzie jesteśmy w stanie podzielić wielowymiarowego Guassiana na produkt, ponieważ kowariancja jest wielokrotnością macierzy tożsamości.
Weź ujemne prawdopodobieństwo dziennika start−log[p(w|D)]=−∑n=1Nlog[N(y(n);fw(x(n)),σ2y)]−∑i=1Klog[N(wi;0,σ2w)]+const.=12σ2y∑n=1N(y(n)−fw(x(n)))2+12σ2w∑i=1Kw2i+const.
Możemy oczywiście upuścić stałą i pomnożyć przez dowolną kwotę bez zasadniczego wpływu na funkcję straty. (stała nic nie robi, mnożenie skutecznie skaluje szybkość uczenia się. Nie wpłynie na lokalizację minimów). Widzimy więc, że prawdopodobieństwo logarytmu ujemnego rozkładu tylnego jest funkcją straty równoważnej do funkcji straty błędu kwadratowego znormalizowanego L2.
Ta równoważność jest ogólna i dotyczy dowolnej sparametryzowanej funkcji wag - nie tylko regresji liniowej, jak się wydaje powyżej.
źródło
Podczas omawiania równoważności niektórych karanych oszacowań maksymalnego prawdopodobieństwa i procedur bayesowskich należy podkreślić dwie cechy modelowania bayesowskiego.
źródło