Dlaczego kara Lasso jest równoważna podwójnemu wykładniczemu (Laplaceowi) przedtem?

27

Czytałem w wielu odnośnikach, że oszacowanie Lasso dla wektora parametru regresji jest równoważne trybowi tylnemu w którym poprzedni rozkład dla każdego jest podwójnym wykładniczym (znanym również jako rozkład Laplace'a).BBBi

Próbowałem to udowodnić, czy ktoś może dopracować szczegóły?

Wintermute
źródło
@ user777 Dzisiaj przeglądałem tę książkę. Nie można znaleźć niczego istotnego.
Wintermute,

Odpowiedzi:

30

Dla uproszczenia rozważmy tylko jedną obserwację zmiennej Y takiej jak

Y|μ,σ2N(μ,σ2),

μLaplace(λ) i niepoprawny poprzedni f(σ)1σ>0 .

Zatem gęstość połączenia Y,μ,σ2 jest proporcjonalna do

f(Y,μ,σ2|λ)1σexp((yμ)2σ2)×2λeλ|μ|.

Biorąc log i odrzucając warunki, które nie obejmują , log f ( Y , μ , σ 2 ) = - 1μ

logf(Y,μ,σ2)=1σ2yμ22λ|μ|.(1)

Zatem maksimum (1) będzie oszacowaniem MAP i rzeczywiście jest problemem Lasso po ponownym sparametryzowaniu . λ~=λσ2

Rozszerzenie do regresji jest jasne - wymienić z X β w normalny prawdopodobieństwa i ustawić przed na beta będzie ciągiem niezależnych Laplace ( X ) rozkładów.μXββ(λ)

Andrew M.
źródło
25

Jest to oczywiste po sprawdzeniu ilości, którą LASSO optymalizuje.

Przyjmijmy, że jest niezależnym Laplace'em ze średnią zero i pewną skalą τ .βiτ

Więc .p(β|τ)e12τi|βi|

Model danych to typowe założenie regresji .yiidN(Xβ,σ2)

f(y|X,β,σ2)(σ2)n/2exp(12σ2(yXβ)T(yXβ))

Teraz minus dwukrotność kłody tylnej jest w formie

1k(σ2,τ,n,p)+ 1σ2(yXβ)T(yXβ)+1τi|βi|

Niech i otrzymamy - 2 log -posterior zλ=σ2/τ2log

1k(σ2,λ,n,p)+ 1σ2[(yXβ)T(yXβ)+λi|βi|]

Estymator MAP dla minimalizuje powyższe, co minimalizujeβ

S=(yXβ)T(yXβ)+λi|βi|

Tak więc estymatorem MAP dla jest LASSO.β

(Tutaj potraktowałem jako skutecznie naprawiony, ale możesz robić z nim inne rzeczy i nadal otrzymywać LASSO.)σ2

Edycja: To właśnie otrzymuję za skomponowanie odpowiedzi off-line; Nie widziałem dobrej odpowiedzi, która została już opublikowana przez Andrew. Mój naprawdę nic nie robi, czego on już nie robi. Na razie zostawiam mój, ponieważ daje on kilka dodatkowych szczegółów rozwoju pod względem .β

Glen_b - Przywróć Monikę
źródło
1
Wydaje się, że istnieje różnica w twojej odpowiedzi i Andrew. Twoja odpowiedź ma poprawną formę regulizera: , podczas gdy Andrew ma λ | μ | , gdzie w regresji liniowej otrzymujemy μ = X β . λβ1λ|μ|μ=Xβ
Alex R.
2
@AlexR Myślę, że źle interpretujesz μ w odpowiedzi Andrew. Μ tam odpowiada w regresji z tylko przecięciem, a nie X β w regresji wielokrotnej; ten sam argument występuje w przypadku większej sprawy (zwróć uwagę na podobieństwa z moją odpowiedzią), ale łatwiej jest podążać w prostej sprawie. Odpowiedź Andrew jest zasadniczo słuszna, ale nie łączy wszystkich kropek z pierwotnym pytaniem, pozostawiając niewielką ilość do wypełnienia przez czytelnika. Myślę, że nasze odpowiedzi są spójne (do pewnych drobnych różnic związanych z σ, które można uwzględnić) i że w pełni zasłużył na kleszczβ0Xβ
Glen_b