Bayesian lasso kontra kolec i płyta

14

Pytanie: Jakie są zalety / wady korzystania z jednego wcześniejszego do drugiego przy selekcji zmiennych?

Załóżmy, że ma prawdopodobieństwo: , w którym można umieścić albo jedną priors: lub:

yN(Xw,σ2I)
wiπδ0+(1π)N(0,100)π=0.9,
wiexp(λ|wi|)λΓ(1,1).

Podaję π=0.9 aby podkreślić, że większość wag wynosi zero, a przed gamma λ należy wybrać parametr „regularyzacja”.

Jednak mój profesor nalega, aby wersja lasso „kurczyła” współczynniki i właściwie nie dokonuje właściwego wyboru zmiennych, tj. Występuje nadmierny skurcz nawet odpowiednich parametrów.

Osobiście uważam, że implementacja wersji Lasso jest łatwiejsza, ponieważ korzystam z wariacyjnego Bayesa. W rzeczywistości rzadki artykuł Bayesian Learning, który skutecznie stawia pierwszeństwo przed 1|wja| daje jeszcze rzadsze rozwiązania.

sachinruk
źródło
4
Twój profesor ma rację, że zmniejsza odpowiednie parametry, ale co z tego? Zmniejsza je tylko do tego stopnia, że ​​nie przyczyniają się znacząco do zmniejszenia błędu. I dlaczego robi się koncentrować na prawidłowy dobór zmiennych .. Gdyby nie koncentruje się na redukcji (test) błędzie
seanv507
W przypadku większości problemów tak zgodziłbym się. Jednak w przypadku niektórych problemów (np. Wykrywanie raka z ekspresją genów) bardzo ważne jest ustalenie, które cechy są czynnikami. ps Od tego czasu przeszedłem z postdoc, ponieważ jest kretynem. Uczenie maszynowe ftw !!!
sachinruk,
Spike i Slab są złotym standardem w doborze zmiennych, a ja wolę też pracować z LASSO. @Sachin_ruk: Kolec i kęsisko można zaimplementować również przy pomocy Variational Bayes ...
Sandipan Karmakar
@ SandipanKarmakar czy możesz zamieścić link odnoszący się do kolca i płyty w Variational Bayes.
sachinruk
Twoje pytanie łączy problemy związane z modelowaniem [który wcześniej?] I implementacją [wariacyjne Bayesa]. Powinny być przetwarzane osobno.
Xi'an

Odpowiedzi:

3

Obie te metody (LASSO vs. kolec i płyta) można interpretować jako problemy z estymacją Bayesa, w których określa się różne parametry. Jedną z głównych różnic jest to, że metoda LASSO nie nakłada żadnej masy punktowej na zero dla pierwszeństwa (tj. Parametry są prawie na pewno niezerowe a priori), podczas gdy szpic i płyta nakładają znaczną masę punktową na zero.

Moim skromnym zdaniem główną zaletą metody „spike-and-slab” jest to, że dobrze nadaje się do problemów, w których liczba parametrów jest większa niż liczba punktów danych , a chcesz całkowicie wyeliminować znaczną liczbę parametrów z modelu. Ponieważ ta metoda poprzednio nakłada dużą masę punktową na zero, przyniesie ona późniejsze szacunki, które zwykle obejmują jedynie niewielką część parametrów, miejmy nadzieję, że uniknie się nadmiernego dopasowania danych.

Kiedy twój profesor mówi ci, że ten pierwszy nie wykonuje metody selekcji zmiennych, prawdopodobnie chodzi o to. W LASSO każdy z parametrów jest prawie na pewno niezerowy a priori (tzn. Wszystkie są w modelu). Ponieważ prawdopodobieństwo jest również niezerowe w stosunku do obsługi parametrów, będzie to również oznaczać, że każdy jest prawie na pewno niezerowy a priori (tj. Wszystkie są w modelu). Teraz możesz uzupełnić to testem hipotez i w ten sposób wykluczyć parametry z modelu, ale byłby to dodatkowy test nałożony na model Bayesa.

Wyniki estymacji bayesowskiej będą odzwierciedlać wkład z danych i wkład z wcześniejszego okresu. Oczywiście wcześniejszy rozkład, który jest bardziej skoncentrowany wokół zera (podobnie jak płyta szczytowo-płytowa) rzeczywiście „zmniejszy” wynikowe estymatory parametrów, w stosunku do wcześniejszego mniej skoncentrowanego (jak LASSO). Oczywiście to „kurczenie się” jest jedynie efektem wcześniejszych informacji, które podałeś. Kształt wcześniejszego LASSO oznacza, że ​​zmniejsza on wszystkie oszacowania parametrów w kierunku średniej, w porównaniu do bardziej płaskiego wcześniejszego.

Ben - Przywróć Monikę
źródło