LASSO / LARS a metoda ogólna do konkretnej (GETS)

15

Zastanawiam się, dlaczego metody wyboru modeli LASSO i LARS są tak popularne, mimo że są to po prostu warianty stopniowego wybierania do przodu (a zatem cierpią na zależność od ścieżki)?

Podobnie, dlaczego metody Ogólnego do Specyficznego (GETS) wyboru modelu są w większości ignorowane, nawet jeśli działają lepiej niż LARS / LASSO, ponieważ nie cierpią na problem regresji stopniowej? (podstawowe odniesienie do GETS: http://www.federalreserve.gov/pubs/ifdp/2005/838/ifdp838.pdf - najnowszy algorytm zaczyna się od szerokiego modelu i wyszukiwania drzewa, które pozwala uniknąć zależności ścieżki, i pokazano, że często radzą sobie lepiej niż LASSO / LARS).

To po prostu dziwne, LARS / LASSO wydają się mieć o wiele więcej ekspozycji i cytatów niż General to Specific (GETS), ktoś ma jakieś przemyślenia?

Nie próbując rozpocząć gorącej debaty, bardziej szukając racjonalnego wyjaśnienia, dlaczego literatura wydaje się koncentrować raczej na LASSO / LARS niż na GETS, a niewiele osób faktycznie wskazuje na niedociągnięcia LASSO / LARS.

tortilla
źródło
Co tutaj rozumiesz przez ścieżkę zależną ? Czy jest jeszcze jakieś wiarygodne odniesienie do GETS? Nie znam tego.
kardynał
Tu jest lepiej, bardziej „autorytatywne” odniesienia, który również wspomina Lasso: degruyter.com/view/j/jtse.2011.3.1/jtse.2011.3.1.1097/... .
tortilla
Chciałem również dodać, co miałem na myśli: więc dodajesz znaczące regresory jeden po drugim, ale to podejście nie pozwala ci upuścić jednego, jeśli na podstawie korelacji między regresorami jedna może stać się nieistotna. Zatem po dodaniu jeden istnieje zależność od ścieżki, że ten regresor jest teraz ustawiony i nie można go usunąć. Czy to nie jest przypadek?
tortilla
1
Możliwe jest, że zmienne zostaną upuszczone w połowie przez lasso, jeśli jego ścieżka współczynnika przecina po drodze zero. Czy znasz Efron i in. oryginalny artykuł na temat LARS? Wyjaśnia to bardzo szczegółowo z ładnym geometrycznym smakiem.
kardynał
2
Myślę, że Lasso jest popularny, ponieważ skutecznie przerzuca problem wyboru modelu z jednego z testowania hipotez na jeden z szacowania parametrów.
prawdopodobieństwo prawdopodobieństwa

Odpowiedzi:

2

Zastrzeżenie: Jestem tylko zdalnie zaznajomiony z pracą nad wyborem modelu między innymi przez Davida F. Hendry'ego. Wiem jednak od szanowanych kolegów, że Hendry poczynił bardzo interesujący postęp w zakresie problemów związanych z wyborem modelu w ekonometrii. Ocena, czy literatura statystyczna nie zwraca wystarczającej uwagi na jego pracę nad wyborem modelu, wymagałaby dużo więcej pracy z mojej strony.

Interesujące jest jednak zrozumienie, dlaczego jedna metoda lub pomysł generuje znacznie więcej aktywności niż inne. Bez wątpienia w nauce istnieją również aspekty mody. Moim zdaniem lasso (i przyjaciele) ma jedną wielką zaletę, ponieważ jest rozwiązaniem bardzo łatwego do wyrażenia problemu optymalizacji. Jest to klucz do szczegółowego teoretycznego zrozumienia rozwiązania i opracowanych wydajnych algorytmów. Ostatnia książka Bühlmann i Van De Geer , Statistics for High-Dimensional Data , ilustruje, jak wiele wiadomo o lasso.

Możesz wykonywać niekończące się badania symulacyjne i oczywiście możesz zastosować metody, które uważasz za najbardziej odpowiednie i odpowiednie dla konkretnego zastosowania, ale w przypadku części literatury statystycznej należy również uzyskać istotne wyniki teoretyczne. To, że lasso wygenerowało wiele działań, świadczy o tym, że istnieją teoretyczne pytania, na które można właściwie podejść i że mają one interesujące rozwiązania.

Inną kwestią jest to, że lasso lub wariacje na temat wykonywania dobrze w wielu przypadkach. Po prostu nie jestem przekonany, czy to prawda, że ​​lasso jest tak łatwo przewyższać innymi metodami, jak sugeruje PO. Może pod względem (sztucznego) wyboru modelu, ale nie pod względem wydajności predykcyjnej. Żadne z wymienionych odniesień nie wydaje się tak naprawdę porównywać Gets i lasso.

NRH
źródło
2

dlaczego metody wyboru modeli LASSO i LARS są tak popularne, mimo że są to po prostu warianty stopniowego wybierania do przodu

Istnieje różnica między wyborem podzbioru LASSO i (GETS): LASSO zmniejsza współczynniki do zera w sposób zależny od danych, podczas gdy wybór podzbioru (GETS) nie. Wydaje się, że jest to przewaga wyboru LASSO nad wyborem podzbioru (GETS), nawet jeśli czasami może się nie powieść (wymaga dostrajania parametrów, co zwykle odbywa się poprzez weryfikację krzyżową, a czasami może się zdarzyć, że źle dostroi się).

Metody (GETS) <...> działają lepiej niż LARS / LASSO

Wydajność GETS wydaje się być porównywalnej jakości do LASSO, gdy jest wykonywana przez bezstronnych (?) Badaczy (choć niekoniecznie w artykułach, w których proponowana jest nowa wersja GETS - ale tego można się spodziewać); zobacz niektóre odniesienia w tym wątku .

Być może Sir Hendry & Co uzyskuje dobre wyniki za pomocą GETS ze względu na specyfikę ich zastosowań (głównie makroekonomiczne modelowanie szeregów czasowych)? Ale dlaczego tak może być? To jest osobne pytanie .

Richard Hardy
źródło