Pytanie: Jakie są zalety / wady korzystania z jednego wcześniejszego do drugiego przy selekcji zmiennych?
Załóżmy, że ma prawdopodobieństwo: , w którym można umieścić albo jedną priors: lub:
Podaję aby podkreślić, że większość wag wynosi zero, a przed gamma należy wybrać parametr „regularyzacja”.
Jednak mój profesor nalega, aby wersja lasso „kurczyła” współczynniki i właściwie nie dokonuje właściwego wyboru zmiennych, tj. Występuje nadmierny skurcz nawet odpowiednich parametrów.
Osobiście uważam, że implementacja wersji Lasso jest łatwiejsza, ponieważ korzystam z wariacyjnego Bayesa. W rzeczywistości rzadki artykuł Bayesian Learning, który skutecznie stawia pierwszeństwo przed daje jeszcze rzadsze rozwiązania.
bayesian
feature-selection
sachinruk
źródło
źródło
Odpowiedzi:
Obie te metody (LASSO vs. kolec i płyta) można interpretować jako problemy z estymacją Bayesa, w których określa się różne parametry. Jedną z głównych różnic jest to, że metoda LASSO nie nakłada żadnej masy punktowej na zero dla pierwszeństwa (tj. Parametry są prawie na pewno niezerowe a priori), podczas gdy szpic i płyta nakładają znaczną masę punktową na zero.
Moim skromnym zdaniem główną zaletą metody „spike-and-slab” jest to, że dobrze nadaje się do problemów, w których liczba parametrów jest większa niż liczba punktów danych , a chcesz całkowicie wyeliminować znaczną liczbę parametrów z modelu. Ponieważ ta metoda poprzednio nakłada dużą masę punktową na zero, przyniesie ona późniejsze szacunki, które zwykle obejmują jedynie niewielką część parametrów, miejmy nadzieję, że uniknie się nadmiernego dopasowania danych.
Kiedy twój profesor mówi ci, że ten pierwszy nie wykonuje metody selekcji zmiennych, prawdopodobnie chodzi o to. W LASSO każdy z parametrów jest prawie na pewno niezerowy a priori (tzn. Wszystkie są w modelu). Ponieważ prawdopodobieństwo jest również niezerowe w stosunku do obsługi parametrów, będzie to również oznaczać, że każdy jest prawie na pewno niezerowy a priori (tj. Wszystkie są w modelu). Teraz możesz uzupełnić to testem hipotez i w ten sposób wykluczyć parametry z modelu, ale byłby to dodatkowy test nałożony na model Bayesa.
Wyniki estymacji bayesowskiej będą odzwierciedlać wkład z danych i wkład z wcześniejszego okresu. Oczywiście wcześniejszy rozkład, który jest bardziej skoncentrowany wokół zera (podobnie jak płyta szczytowo-płytowa) rzeczywiście „zmniejszy” wynikowe estymatory parametrów, w stosunku do wcześniejszego mniej skoncentrowanego (jak LASSO). Oczywiście to „kurczenie się” jest jedynie efektem wcześniejszych informacji, które podałeś. Kształt wcześniejszego LASSO oznacza, że zmniejsza on wszystkie oszacowania parametrów w kierunku średniej, w porównaniu do bardziej płaskiego wcześniejszego.
źródło