Jakie są wady używania lassa do wyboru zmiennych do regresji?

60

Z tego, co wiem, użycie lasso do wyboru zmiennych rozwiązuje problem skorelowanych danych wejściowych. Ponadto, ponieważ jest równoważny regresji metodą najmniejszego kąta, nie jest powolny obliczeniowo. Jednak wiele osób (na przykład osoby, które znam, które wykonują biot statystykę) nadal wydaje się faworyzować stopniowy lub stopniowy wybór zmiennych. Czy są jakieś praktyczne wady korzystania z lasso, które sprawiają, że jest on niekorzystny?

xuexue
źródło
9
Nie wiem, gdzie słyszałeś, że Lasso radzi sobie z problemem kolinearności, to absolutnie nieprawda.
Makro
3
Wcześniejszy wybór podkowy jest lepszy niż LASSO do wyboru modelu - przynajmniej w rzadkim przypadku modelu (gdzie wybór modelu jest najbardziej przydatny). Dyskusję na temat tych punktów można znaleźć w tym linku . Dwóch autorów tego artykułu również dostało podobny artykuł do spotkań w Walencji, Bayesian Statistics 9 „Zmniejsz globalnie działaj lokalnie: rzadkie bayesowskie regularyzacje i prognozy”. Artykuł z Walencji zawiera znacznie więcej szczegółów na temat ram karnych.
probabilislogiczny
9
Jeśli interesuje Cię tylko przewidywanie, wybór modelu nie pomaga i zwykle boli (w przeciwieństwie do kary kwadratowej = norma L2 = regresja grzbietu bez wyboru zmiennej). LASSO płaci cenę za dyskryminację predykcyjną za próbę dokonania wyboru zmiennej.
Frank Harrell,
3
Rzut monetą w celu podjęcia arbitralnej decyzji często ujawnia, że ​​tak naprawdę zależy Ci na wyniku. Każda metoda, która oferuje podejmowanie decyzji dotyczących wyboru predyktorów, często wyjaśnia, że ​​masz pomysły na temat tego, które predyktory należą bardziej naturalnie do modelu, pomysłów, których nie chcesz ignorować. LASSO może tak działać.
Nick Cox
5
Po drugie @Nick: „brak dostępnej teorii do wyboru modelu” jest mało realne. Zdrowy rozsądek to teoria.
Scortchi - Przywróć Monikę

Odpowiedzi:

29

Nie ma powodu, aby dokonywać stopniowego wyboru. Po prostu źle.

LASSO / LAR to najlepsze metody automatyczne. Ale są to metody automatyczne. Pozwalają analitykowi nie myśleć.

W wielu analizach niektóre zmienne powinny znajdować się w modelu NIEZALEŻNIE od żadnej miary istotności. Czasami są niezbędnymi zmiennymi kontrolnymi. Innym razem znalezienie małego efektu może być istotnie ważne.

Peter Flom
źródło
43
„Nie ma powodu, aby dokonywać stopniowej selekcji. Po prostu jest źle”. - Prawie nigdy nie są tak niewiarygodnie obszerne, pozbawione kontekstu, dobre praktyki statystyczne. Jeśli cokolwiek tutaj jest „po prostu źle”, jest to pogrubione stwierdzenie powyżej. Jeśli twoja analiza nie kładzie nacisku na wartości lub szacunki parametrów (np. Modele predykcyjne), to krokowa selekcja zmiennych może być rozsądnym rozwiązaniem i może w niektórych przypadkach :: gasp :: przewyższać LASSO. (Peter, wiem, że mieliśmy już ten konwój - ten komentarz jest bardziej skierowany do przyszłego czytelnika, który może spotkać tylko ten post, a nie inny). p
Makro
4
-1 z powodu ogólnej krytyki stopniowej. To nie jest „po prostu źle”, ale ma miejsce jako deterministyczny model wyszukiwania. Naprawdę masz pszczołę w maski na temat metod automatycznych.
probabilislogiczny
8
@Elvis, nie jestem ekspertem w tej dziedzinie ani rzecznikiem kroków; Kwestionuję jedynie bezwarunkowy charakter tego oświadczenia. Ale z ciekawości wykonałem kilka prostych symulacji i odkryłem, że gdy masz dużą liczbę współliniowych predyktorów, z których wszystkie mają w przybliżeniu równe efekty, wsteczna selekcja jest lepsza niż LASSO, jeśli chodzi o przewidywanie poza próbą. Użyłem z . Predyktory są standardowo normalne z dla każdej pary . ε ~ N ( 0 , 1 ) C, o R ( X i J , X i k ) = 1 / 2 ( J , K )
Yi=j=1100Xij+εi
εN(0,1)cor(Xij,Xik)=1/2(j,k)
Makro
10
Z pewnością powinieneś zbadać kolinearność przed rozpoczęciem regresji. Powiedziałbym, że jeśli masz dużą liczbę zmiennych współliniowych, nie powinieneś używać LASSO ani Stepwise; powinieneś albo rozwiązać problem kolinearności (usunąć zmienne, uzyskać więcej danych itp.), albo zastosować metodę zaprojektowaną dla takich problemów (np. regresja grzbietu)
Peter Flom
5
OK, masz rację, ale nie sądzę, żeby to było naprawdę istotne. Ani lasso wsteczne NOR (ani żadna metoda selekcji zmiennych) nie rozwiązuje wszystkich problemów. Przed rozpoczęciem modelowania musisz zrobić kilka rzeczy - a jedną z nich jest sprawdzenie kolinearności. Nie obchodzi mnie również, która metoda wyboru zmiennych działała w przypadku innych zestawów danych, które naruszały zasady regresji, do których obie metody mają się stosować.
Peter Flom
22

Jeśli zależy ci tylko na błędzie prognozy i nie zależy ci na interpretacji, wnioskowaniu swobodnym, prostocie modelu, testach współczynników itp., Dlaczego nadal chcesz używać modelu regresji liniowej?

Możesz użyć czegoś takiego jak wzmocnienie drzew decyzyjnych lub wesprzeć regresję wektorową i uzyskać lepszą jakość prognozowania i nadal unikać przeregulowania w obu wymienionych przypadkach. To znaczy, że Lasso może nie być najlepszym wyborem, aby uzyskać najlepszą jakość prognozowania.

Jeśli moje rozumowanie jest prawidłowe, Lasso jest przeznaczony do sytuacji, w których nadal interesuje Cię sam model, a nie tylko prognozy. To znaczy - zobacz wybrane zmienne i ich współczynniki, interpretuj w jakiś sposób itp. I do tego - Lasso może nie być najlepszym wyborem w pewnych sytuacjach, jak omówiono w innych pytaniach tutaj.

Kochede
źródło
20

LASSO zachęca do zmniejszenia współczynników do zera, tj. Porzucenia tych zmiennych z twojego modelu. Natomiast inne techniki regularyzacji, takie jak grzbiet, mają tendencję do utrzymywania wszystkich wariantów.

Zalecam więc zastanowić się, czy to usunięcie ma sens dla twoich danych. Np. Rozważ ustanowienie klinicznego testu diagnostycznego albo na danych mikromacierzy genowych, albo na danych spektroskopii wibracyjnej.

  • Można się spodziewać, że niektóre geny niosą ze sobą istotne informacje, ale wiele innych genów jest po prostu szumem. Twoje zgłoszenie. Upuszczenie tych odmian jest całkowicie rozsądnym pomysłem.

  • Natomiast zestawy danych spektroskopii wibracyjnej (chociaż zwykle mają podobne wymiary w porównaniu do danych z mikromacierzy) mają tendencję do „rozsmarowania” odpowiednich informacji na dużych częściach widma (korelacja). W tej sytuacji poproszenie regularyzatora o upuszczenie wariantów nie jest szczególnie rozsądnym podejściem. Tym bardziej, że inne techniki regularyzacji, takie jak PLS, są bardziej dostosowane do tego rodzaju danych.

Elementy uczenia statystycznego dobrze omawiają LASSO i porównują je z innymi technikami regularyzacji.

cbeleity
źródło
14

Jeśli dwa predyktory są wysoce skorelowane, LASSO może upuścić jeden raczej arbitralnie. Nie jest to zbyt dobre, gdy chcesz dokonać prognoz dla populacji, w której te dwa predyktory nie są ściśle skorelowane, i być może jest to powód, dla którego wolisz regresję grzbietu w takich okolicznościach.

Możesz również pomyśleć, że standaryzacja predyktorów (na przykład, gdy współczynniki są „duże” lub „małe”) raczej arbitralna i zastanawiasz się (tak jak ja) na temat rozsądnych sposobów standaryzacji predyktorów jakościowych.

Scortchi - Przywróć Monikę
źródło
1
Dziękuję za tę odpowiedź. Czy znasz jakieś artykuły omawiające problemy ze skorelowanymi predyktorami / predyktorami jakościowymi?
Berk U.
2
Warto dodać, że istnieją inne metody regresji karnej, które próbują złagodzić te problemy (takie jak siatka elastyczna).
bdeonovic
Przy dokonywaniu selekcji zmiennych za pomocą zmiennych wysoce współliniowych, iteracyjny grzbiet adaptacyjny (który aproksymuje regresję karną L0 is zaimplementowaną w pakiecie L0ara) ma tendencję do osiągania najlepszych wyników lub kary L0L2, jak zaimplementowano w pakiecie L0Learn, również działają dobrze ...
Tom Wenseleers
9

Lasso jest użyteczne tylko wtedy, gdy ograniczasz się do rozważania modeli, które są liniowe w szacowanych parametrach. Innymi słowy, lasso nie ocenia, czy wybrałeś poprawną formę relacji między zmiennymi niezależnymi i zależnymi.

Jest bardzo prawdopodobne, że w dowolnym zestawie danych mogą występować efekty nieliniowe, interaktywne lub wielomianowe. Te alternatywne specyfikacje modelu zostaną jednak ocenione tylko wtedy, gdy użytkownik przeprowadzi tę analizę; lasso nie zastąpi tego.

Jako prosty przykład tego, jak może się to nie udać, rozważ zestaw danych, w którym rozłączne interwały zmiennej niezależnej będą przewidywać naprzemiennie wysokie i niskie wartości zmiennej zależnej. To będzie trudne do uporządkowania przy użyciu konwencjonalnych modeli liniowych, ponieważ nie występuje efekt liniowy w zmiennych manifestu obecnych do analizy (ale pewna transformacja zmiennych manifestu może być pomocna). Pozostawiony w swojej manifestowanej formie lasso niepoprawnie uzna, że ​​ta cecha jest obca i wyzeruje swój współczynnik, ponieważ nie ma zależności liniowej . Z drugiej strony, ponieważ w danych występują wyrównane do osi podziały, model oparty na drzewach, taki jak losowy las, prawdopodobnie dobrze sobie poradzi.

wprowadź opis zdjęcia tutaj

Przywróć Monikę
źródło
5

Praktyczną wadą lasso i innych technik regularyzacji jest znalezienie optymalnego współczynnika regularyzacji, lambda. Korzystanie z krzyżowej weryfikacji w celu znalezienia tej wartości może być tak samo drogie jak techniki selekcji krokowej.

rm999
źródło
Co rozumiesz przez „drogi”?
mark999
4
To twierdzenie nie jest do końca prawdziwe. Jeśli zastosujesz wyszukiwanie siatki „ciepłego startu” jak w metodzie glmnet, możesz bardzo szybko obliczyć całą siatkę.
probabilislogiczny
1
@probabilityislogic Prawda, czytałem o ciepłych startach dopiero po napisaniu powyższego komentarza. Co sądzisz o tym dokumencie, który wskazuje, że ciepłe rozruchy są wolniejsze, a czasem mniej skuteczne niż zwykła walidacja krzyżowa? users.cis.fiu.edu/~lzhen001/activities/KDD2011Program/docs/…
rm999
5
Bayesian lasso nie wymaga stałej :)λ
Stéphane Laurent
5

Nie jestem ekspertem od LASSO, ale jestem ekspertem od szeregów czasowych. Jeśli masz dane szeregów czasowych lub dane przestrzenne, to ostrożnie unikałbym rozwiązania opartego na niezależnych obserwacjach. Ponadto, jeśli istnieją nieznane deterministyczne efekty, które miały spustoszenie w twoich danych (przesunięcia poziomu / trendy czasowe itp.), LASSO byłby jeszcze mniej dobrym młotem. Zamykając, gdy masz dane szeregów czasowych, często musisz segmentować dane w obliczu parametrów lub wariancji błędów, które zmieniają się w czasie.

IrishStat
źródło
1
LASSO może zapewnić dobrą wydajność prognozowania w przypadku zastosowania w modelach szeregów czasowych opartych na regresji, takich jak autoregresje ar (AR), autoregresje wektorowe (VAR) i modele wektorowej korekcji błędów (VECM). Na przykład skorzystaj z autoregresji wektora lasso, a znajdziesz wiele przykładów w literaturze akademickiej. Z mojego własnego doświadczenia wynika, że ​​używanie LASSO do stacjonarnych modeli VAR zapewnia lepszą wydajność prognozowania w porównaniu do wszystkich wybranych podzbiorów lub regulowania grzbietu, podczas gdy regulowanie grzbietu wyprzedza LASSO dla zintegrowanych modeli VAR (z powodu wielokoliniowości, zgodnie z odpowiedzią Scortchi).
Richard Hardy,
Tak więc awaria LASSO nie jest nieodłączną częścią danych będących szeregami czasowymi.
Richard Hardy,
2

To już dość stare pytanie, ale wydaje mi się, że w międzyczasie większość odpowiedzi tutaj jest dość przestarzała (a ta, która jest sprawdzona pod kątem poprawnej odpowiedzi, jest po prostu zła imho).

Po pierwsze, jeśli chodzi o uzyskanie dobrych wyników prognozowania, nie jest powszechnie prawdą, że LASSO jest zawsze lepszy niż krokowy. Artykuł „Rozszerzone porównania najlepszego wyboru podzbiorów, selekcji krokowej do przodu i Lasso” autorstwa Hastie i in. (2017) zawiera obszerne porównanie kroku do przodu, LASSO i niektórych wariantów LASSO, takich jak zrelaksowany LASSO, a także najlepszy podzbiór, i pokaż, że krok po kroku jest czasem lepszy niż LASSO. Jednak wariant LASSO - zrelaksowany LASSO - był tym, który zapewnił najwyższą dokładność prognozowania modelu w najszerszym zakresie okoliczności. Wniosek, który jest najlepszy, zależy jednak w dużej mierze od tego, co uważasz za najlepsze, np. Od tego, czy byłaby to najwyższa dokładność przewidywania, czy wybór najmniejszej liczby fałszywie dodatnich zmiennych.

Istnieje jednak całe zoo rzadkich metod uczenia się, z których większość jest lepsza niż LASSO. Np. Istnieje zrelaksowana LASSO Meinhausena , adaptacyjna regresja karana LASSO i SCAD i MCP zaimplementowana w ncvregpakiecie, które mają mniejszą tendencję niż standardowe LASSO i dlatego są preferowane. Ponadto, jeśli interesuje Cię absolutnie rzadkie rozwiązanie o najlepszej wydajności predykcji, to regresja karna L0 (czyli najlepszy podzbiór, tj. Oparty na penalizacji liczby niezerowych współczynników w przeciwieństwie do sumy wartości bezwzględnej współczynników w LASSO) jest lepszy niż LASSO, patrz np. l0arapakiet zbliżony do LM karanych L0 za pomocą iteracyjnej adaptacyjnej procedury grzbietu, który, w przeciwieństwie do LASSO, działa również bardzo dobrze z wysoce zmiennymi współliniowymi, a L0Learnpakiet , który może pasować do modeli regresji penalizowanej L0 przy użyciu opadania współrzędnych , potencjalnie w połączeniu z karą L2 w celu uregulowania kolinearności.

Wracając do pierwotnego pytania: dlaczego nie użyć LASSO do wyboru zmiennych? :

(1) ponieważ współczynniki będą bardzo tendencyjne, co zostanie poprawione w łagodnej regresji karnej LASSO, MCP i SCAD, i rozwiązane całkowicie w regresji karnej L0 (która ma pełną właściwość wyroczni, tj. Może wykryć zarówno zmienne przyczynowe, jak i powtórzyć współczynniki obiektywne, także dla przypadków p> n)

(2) ponieważ ma tendencję do wytwarzania znacznie większej liczby fałszywie dodatnich wyników niż regresja karana L0 (w moich testach l0aranajlepiej wtedy, tj. Iteracyjny grzbiet adaptacyjny, po którym następuje L0Learn)

(3) ponieważ nie radzi sobie dobrze ze zmiennymi współliniowymi (w zasadzie losowo wybrałby jedną ze zmiennych współliniowych) - iteracyjny adaptacyjny grzbiet / l0arai kary L0L2 L0Learnsą znacznie lepsze w radzeniu sobie z tym.

Oczywiście, ogólnie rzecz biorąc, nadal będziesz musiał używać weryfikacji krzyżowej, aby dostroić parametry regulacyjne, aby uzyskać optymalną wydajność przewidywania, ale to nie jest problem. Możesz nawet wnioskować na podstawie swoich wymiarów na podstawie parametrów i obliczyć 95% przedziały ufności dla swoich współczynników, jeśli chcesz za pomocą nieparametrycznego ładowania początkowego (nawet biorąc pod uwagę niepewność wyboru optymalnej regularyzacji, jeśli wykonasz krzyżową weryfikację również dla każdego zestawu danych rozruchowego , ale wtedy staje się to dość powolne).

Obliczeniowo LASSO nie jest wolniejsze w dopasowywaniu niż podejście stopniowe btw, z pewnością nie, jeśli używa się wysoce zoptymalizowanego kodu, który używa ciepłych startów w celu optymalizacji regularyzacji LASSO (możesz porównać siebie za pomocą fspolecenia lassokrokowego do przodu i dla LASSO w bestsubsetpakiecie). Fakt, że podejścia stopniowe są nadal popularne, prawdopodobnie ma związek z błędnym przekonaniem wielu osób, że można po prostu zachować swój ostateczny model i zgłosić związane z nim wartości p - co w rzeczywistości nie jest słuszne, ponieważ tak nie jest wziąć pod uwagę niepewność wprowadzoną przez wybór modelu, co skutkuje zbyt optymistycznymi wartościami p.

Mam nadzieję że to pomoże?

Tom Wenseleers
źródło
0

Jednym z nich jest trudność w testowaniu hipotez. Nie można łatwo zorientować się, które zmienne są istotne statystycznie za pomocą Lasso. Dzięki regresji krokowej możesz do pewnego stopnia testować hipotezy, jeśli jesteś ostrożny w leczeniu wielu testów.

dsimcha
źródło
8
Powiedziałbym, że to zaleta, a nie wada. To powstrzymuje cię przed zrobieniem czegoś, czego prawdopodobnie nie powinieneś robić.
Peter Flom
@Peter: Dlaczego? Zakładam, że należycie poprawiłbyś testy wielokrotne itp., Tak aby uzyskane wartości P były prawidłowe.
dsimcha
10
tak naprawdę nie ma sposobu, aby poprawnie poprawić wiele testów krok po kroku. Zobacz np. Strategie modelowania regresji Harrella. Nie ma sposobu, aby poznać właściwą korektę
Peter Flom
4
Prawdą jest, że trudność w testowaniu hipotez jest potencjalną wadą LASSO. Nie jest prawdą, że jest to wada w stosunku do regresji krokowej.
gung - Przywróć Monikę
2
Cóż, istnieje platforma selektywnego wnioskowania (zaimplementowana w pakiecie selektywnego wnioskowania) do wnioskowania (po selekcji) dla LASSO ... Lub dla dowolnej metody selekcji zmiennych można użyć nieparametrycznego ładowania początkowego w celu wnioskowania i uzyskania przedziałów ufności na oszacowaniach parametrów. ..
Tom Wenseleers