Wszyscy dobrze znamy dobrze udokumentowane w literaturze pojęcie, że optymalizacja LASSO (dla uproszczenia ogranicza tu uwagę na przypadek regresji liniowej) jest równoważny modelowi liniowemu z błędami Gaussa, w którym parametrom nadawany jest Laplace przed \ exp (- \ lambda \ | \ beta \ | _1) Wiemy również, że wyższy ustawia parametr strojenia, \ lambda , tym większa część parametrów zostaje ustawiona na zero. Biorąc to pod uwagę, mam następujące pytanie myślowe:
Weź pod uwagę, że z Bayesowskiego punktu widzenia możemy obliczyć prawdopodobieństwo późniejsze, że powiedzmy, niezerowe oszacowania parametrów leżą w dowolnym zbiorze przedziałów, a parametry ustawione na zero przez LASSO są równe zeru. Co mnie pomyliło, biorąc pod uwagę, że przeor Laplace'a jest ciągły (a właściwie absolutnie ciągły), to w jaki sposób na dowolnym zbiorze będącym iloczynem przedziałów i singletonów w \ {0 \} może być jakakolwiek masa ?
źródło
Odpowiedzi:
Podobnie jak wszystkie powyższe komentarze, Bayesowska interpretacja LASSO nie przyjmuje oczekiwanej wartości rozkładu tylnego, co chciałbyś zrobić, gdybyś był purystą. Jeśli tak by było, to miałbyś rację, że istnieje bardzo mała szansa, że tylny wyniesie zero, biorąc pod uwagę dane.
W rzeczywistości bayesowska interpretacja LASSO przyjmuje estymator MAP (Maximum A Posteriori) z tyłu. To brzmi jak jesteś zaznajomiony, ale dla każdego, kto nie jest, jest to w zasadzie maksymalne prawdopodobieństwo Bayesa, w którym używasz wartości, która odpowiada maksymalnemu prawdopodobieństwu wystąpienia (lub trybu) jako estymatora parametrów w LASSO. Ponieważ rozkład rośnie wykładniczo do zera w kierunku ujemnym i spada wykładniczo w kierunku dodatnim, chyba że dane silnie sugerują, że beta jest jakąś inną znaczącą wartością, maksymalna wartość wartości twojego tylnego prawdopodobnie wynosi 0.
Krótko mówiąc, twoja intuicja wydaje się opierać na środkowej pozycji tylnej, ale bayesowska interpretacja LASSO opiera się na przyjęciu trybu tylnej.
źródło