Jeśli LASSO jest równoważne regresji liniowej z Laplace'em wcześniej, to jak może być masa na zbiorach ze składowymi zerowymi?

20

Wszyscy dobrze znamy dobrze udokumentowane w literaturze pojęcie, że optymalizacja LASSO (dla uproszczenia ogranicza tu uwagę na przypadek regresji liniowej) jest równoważny modelowi liniowemu z błędami Gaussa, w którym parametrom nadawany jest Laplace przed \ exp (- \ lambda \ | \ beta \ | _1) Wiemy również, że wyższy ustawia parametr strojenia, \ lambda , tym większa część parametrów zostaje ustawiona na zero. Biorąc to pod uwagę, mam następujące pytanie myślowe:

loss=yXβ22+λβ1

exp(λβ1)
λ

Weź pod uwagę, że z Bayesowskiego punktu widzenia możemy obliczyć prawdopodobieństwo późniejsze, że powiedzmy, niezerowe oszacowania parametrów leżą w dowolnym zbiorze przedziałów, a parametry ustawione na zero przez LASSO są równe zeru. Co mnie pomyliło, biorąc pod uwagę, że przeor Laplace'a jest ciągły (a właściwie absolutnie ciągły), to w jaki sposób na dowolnym zbiorze będącym iloczynem przedziałów i singletonów w \ {0 \} może być jakakolwiek masa {0}?

Grant Izmirlian
źródło
8
Co sprawia, że ​​myślisz, że a posterior nie jest również ciągłym pdf? Fakt, że maksimum tylnej części zdarza się w punkcie, w którym zdarza się, że ma wiele zerowych składników, nie oznacza samo w sobie, że tylny odcinek nie jest ciągłym plikiem pdf.
Brian Borchers,
Tylny jest ciągłym plikiem PDF. Patrząc jako ograniczone oszacowanie maksymalnego prawdopodobieństwa, jeśli wyobrażamy sobie powtarzające się losowania z tego samego rozkładu danych, gdy prawdziwy model ma zera przy wielu współczynnikach regresji, a stała strojenia jest wystarczająco duża, wówczas CMLE zawsze będzie miał te same komponenty ustawione na zero, a wartość non- zerowe parametry zostaną rozłożone na odpowiednie przedziały ufności. Z perspektywy bayesowskiej jest to równoważne z dodatnim prawdopodobieństwem dla takich zbiorów. Moje pytanie brzmi, jak to może być w przypadku ciągłej dystrybucji.
Grant Izmirlian
2
Rozwiązanie CLME pokrywa się z oszacowaniem MAP. Naprawdę nie ma nic więcej do powiedzenia.
Sycorax mówi Przywróć Monikę
3
Rozwiązanie CMLE nie jest próbką z tyłu.
Brian Borchers,
2
Nie ma sprzeczności, ponieważ tył nie nakłada masy na zestawy o niższym wymiarze.
Xi'an

Odpowiedzi:

7

Podobnie jak wszystkie powyższe komentarze, Bayesowska interpretacja LASSO nie przyjmuje oczekiwanej wartości rozkładu tylnego, co chciałbyś zrobić, gdybyś był purystą. Jeśli tak by było, to miałbyś rację, że istnieje bardzo mała szansa, że ​​tylny wyniesie zero, biorąc pod uwagę dane.

W rzeczywistości bayesowska interpretacja LASSO przyjmuje estymator MAP (Maximum A Posteriori) z tyłu. To brzmi jak jesteś zaznajomiony, ale dla każdego, kto nie jest, jest to w zasadzie maksymalne prawdopodobieństwo Bayesa, w którym używasz wartości, która odpowiada maksymalnemu prawdopodobieństwu wystąpienia (lub trybu) jako estymatora parametrów w LASSO. Ponieważ rozkład rośnie wykładniczo do zera w kierunku ujemnym i spada wykładniczo w kierunku dodatnim, chyba że dane silnie sugerują, że beta jest jakąś inną znaczącą wartością, maksymalna wartość wartości twojego tylnego prawdopodobnie wynosi 0.

Krótko mówiąc, twoja intuicja wydaje się opierać na środkowej pozycji tylnej, ale bayesowska interpretacja LASSO opiera się na przyjęciu trybu tylnej.

www3
źródło