Lasso porządkuje opóźnienie?

9

Załóżmy, że mam dane podłużne postaci (Mam wiele obserwacji, to tylko forma jednego). Interesują mnie ograniczenia dotyczące . Nieograniczony jest równoważny z wzięciem z .Y=(Y1,,YJ)N(μ,Σ)ΣΣ

Yj=αj+=1j1ϕjYj+εj
εjN(0,σj)

Zazwyczaj nie jest to wykonywane, ponieważ wymaga oszacowania parametrów kowariancji . Model jest „lag- ”, jeśli weźmiemy tzn. tylko poprzedniego warunki przewidywania z historii.O(J2)k

Yj=αj+=1kϕjYj+εj,
kYj

To, co naprawdę chciałbym zrobić, to użyć jakiegoś pomysłu na skurcz, aby wyzerować niektóre , takie jak LASSO. Ale rzecz w tym, że także chciałby metody używam preferują modele, które są lag- dla pewnego ; Chciałbym karać za opóźnienia wyższego rzędu bardziej niż opóźnienia niższego rzędu. Myślę, że jest to coś, co szczególnie chcielibyśmy zrobić, biorąc pod uwagę, że predyktory są wysoce skorelowane.ϕjkk

Dodatkowym problemem jest to, że jeśli (powiedzmy) jest skurczony do , chciałbym również, jeśli jest skurczony do , tj. To samo opóźnienie jest używane we wszystkich dystrybucjach warunkowych.ϕ350ϕ360

Mógłbym spekulować na ten temat, ale nie chcę wymyślać koła na nowo. Czy są jakieś techniki LASSO zaprojektowane w celu rozwiązania tego rodzaju problemu? Czy lepiej zrobić coś zupełnie innego, np. Stopniowe dołączanie opóźnień? Ponieważ moja przestrzeń modelu jest niewielka, mógłbym nawet zastosować karę za ten problem?L0

chłopak
źródło

Odpowiedzi:

2

Możesz wykonać krzyżową weryfikację wielokrotnie od k = 0 do dowolnej wartości maksymalnej i wykreślić wydajność względem k. Ponieważ model jest testowany na danych, których wcześniej nie widział, nie ma gwarancji, że złożone modele będą działały lepiej, i rzeczywiście powinieneś zobaczyć pogorszenie wydajności, jeśli model stanie się zbyt złożony z powodu przeregulowania. Osobiście uważam, że jest to bezpieczniejsze i łatwiejsze do uzasadnienia niż stosowanie arbitralnego czynnika karnego, ale przebieg może się różnić.

Nie bardzo też śledzę, w jaki sposób zamówiony Lasso odpowiada na pytanie. Wydaje się to zbyt restrykcyjne, całkowicie wymusza uporządkowanie współczynników. Podczas gdy pierwotne pytanie może skończyć się dla niektórych danych mających rozwiązanie, w którym nie zmniejsza się ściśle z l.ϕlj

Nir Friedman
źródło
Aby dodać LaTeX do pytania, dołącz wyrażenie między znakami dolara ($).
Patrick Coulombe,
1
(1) Z samego modelu nie jest oczywiste, że uporządkowanie współczynników jest pożądane, ale merytorycznie uzasadnione. Na przykład w badaniu klinicznym z powtarzanymi pomiarami nie ma uzasadnionego powodu, aby oczekiwać, że niewielkie zaburzenie wpłynie stochastycznie na bardziej niż małe zaburzenie . Zamówiony LASSO lepiej wykorzystuje tę wiedzę a priori, z niewielkim ryzykiem, że może to nie być prawda. Yj2YjYj1
facet
(2) Ogólnie rzecz biorąc, nie użyłbym tej strategii CV przynajmniej częściowo, ponieważ jest ona zbyt dogmatyczna. Mogę uzyskać lepsze prognozy, rozsądnie zmniejszając opóźnienie, zamiast całkowicie go wyrzucać.
facet
Nir, przydatny komentarz do zamówionego LASSO. Zredagowałem swoją odpowiedź, aby była nieco bardziej wyczerpująca. Dzięki!
Sean Easter
Dzięki Sean. Facet, nie sądzę, że to zbyt dogmatyczne. Nie ustawiasz ak w kamieniu, ale raczej pozwalasz mu się zmieniać. Wybrana k będzie na początku przeuczenia. Również zdecydowanie nie zgadzam się z twoim stwierdzeniem o rzekomej wiedzy a priori. Coś pozornie rozsądnego i znajomość tej rzeczy jest zupełnie inna. Muszę przyznać, że wydaje się, że w tradycyjnych statystykach występuje opór wobec krzyżowej weryfikacji, której nigdy nie rozumiałem. Wybrałbym wydajność predykcyjną na podstawie danych przykładowych zamiast dodawania założeń każdego dnia.
Nir Friedman,
2

Nakazał LASSO wydaje się być to, czego szukasz: oblicza ona uregulowana współczynników regresjiβ1...j jak w standardowym LASSO, ale z zastrzeżeniem dodatkowego ograniczenia, które |β1||β2|...|βj|.

Osiąga to drugi cel, polegający na wyzerowaniu współczynników dla opóźnień wyższego rzędu, ale jest bardziej restrykcyjny niż samo ograniczenie preferowania modelu niższego opóźnienia. Jak podkreślają inni, jest to poważne ograniczenie, które może być bardzo trudne do uzasadnienia.

Po odejściu od zastrzeżeń, w artykule przedstawiono wyniki metody zarówno w rzeczywistych, jak i symulowanych danych szeregów czasowych, a także szczegółowe algorytmy w celu znalezienia współczynników. Wniosek wspomina o pakiecie R, ale artykuł jest dość nowy, a wyszukiwanie w CRAN „uporządkowanego LASSO” jest puste, więc podejrzewam, że pakiet jest wciąż w fazie rozwoju.

Artykuł oferuje również ogólne podejście, w którym dwa parametry regularyzacji „zachęcają do niemal monotoniczności”. (Patrz s. 6.) Innymi słowy, należy być w stanie dostroić parametry, aby umożliwić swobodne zamawianie. Niestety nie podano przykładów ani porównań metody zrelaksowanej. Ale autorzy piszą, że wdrożenie tej zmiany jest prostą kwestią zastąpienia jednego algorytmu innym, więc ma się nadzieję, że będzie on częścią nadchodzącego pakietu R.

Sean Easter
źródło
Dzięki, to naprawdę interesujące, że to najnowszy pomysł. Właściwie wpadłem na ten sam pomysł, omawiając problem z przyjacielem, kiedy zadałem to pytanie 9 miesięcy temu, ale nigdy nie zbadałem go dogłębnie! Po prostu założyłem, że pomysł nie był tą powieścią, lub że ktoś już napisał o tym artykuł.
facet
Całkiem mile widziane! Byłem zaskoczony, że to było tak niedawno.
Sean Easter
1

Można zastosować zagnieżdżoną karę LASSO ( pdf ), ale nie ma dla niej pakietów R.

użytkownik53874
źródło
1
Obecnie jest to raczej komentarz niż odpowiedź. Czy możesz to trochę rozszerzyć, być może omawiając karę zagnieżdżoną w LASSO itp.?
gung - Przywróć Monikę
0

Wiem, że napisałeś to jako przesłankę, ale nie użyłbym zamówionego LASSO bez absolutnej pewności, że jest to rzecz, która jest potrzebna, ponieważ założenia zamówionego LASSO nie są bezpośrednio odpowiednie do przewidywania szeregów czasowych. Jako przeciwny przykład rozważ przypadek, w którym masz opóźnienie, powiedzmy, dziesięć kroków czasowych między pomiarem a celem. Oczywiście uporządkowane ograniczenia LASSO nie są w stanie poradzić sobie z takimi efektami bez przypisywania bzdur pierwszym dziewięciu parametrom.

W przeciwieństwie do tego wolałbym trzymać się normalnego LASSO i dołączyć wszystkie poprzednie obserwacje - szczególnie dlatego, że napisałeś, że przestrzeń modelu jest niewielka, a procedury optymalizacji zejścia ze współrzędnymi dla LASSO (jak opisano tutaj ) działają skutecznie również dla dużych zbiorów danych. Następnie oblicz ścieżkę parametru siły regularyzacjiλ i sprawdź, które parametry są uwzględniane, gdy zaczynasz od dużych λ do λ=0. Ważne są zwłaszcza te zawarte wcześniej.

Na koniec musisz wybrać odpowiednie kryterium i zoptymalizować parametr λza pomocą walidacji krzyżowej, standardowej minimalizacji jednowymiarowej lub cokolwiek innego. Kryterium może na przykład wyglądać jak „błąd prognozowania + liczba uwzględnionych zmiennych” (- podobne do kryterium AIC).

davidhigh
źródło
Oczywiście nie byłbym zainteresowany ograniczeniami w porządku współczynników, gdybym nie miał uzasadnionych a priori powodów, by w to wierzyć. W przypadku modeli, które, jak podejrzewam, są prawdopodobne, heurystycznie zamówione LASSO powinno być bardziej wydajne. Posiadanie współczynnika lag-10 przy pozostałych 9 równych 0 nie ma sensu w moim ustawieniu merytorycznym . Jest to problem, nad którym pracowali moi koledzy (skurcz oparty na opóźnieniach), ale wykorzystali pomysły bayesuańskie i dlatego nie rozważaliby (nie-bayesowskiego) LASSO.
facet
Ok, chyba wiesz co robisz. Pamiętaj jednak, że uporządkowana LASSO jest silniej ograniczona niż twoja instrukcja „raz zero - zawsze zero”. Alternatywnie można również rozważyć model, w którym parametry wprowadzane są w sposób multiplikatywny. Wówczas względne znaczenie może albo rosnąć, albo maleć, aż współczynnik wyniesie zero.
davidhigh