Dlaczego Lasso lub ElasticNet działają lepiej niż Ridge, gdy funkcje są skorelowane

17

Mam zestaw 150 funkcji, a wiele z nich jest ze sobą bardzo skorelowanych. Moim celem jest przewidzenie wartości zmiennej dyskretnej, której zakres wynosi 1-8 . Mój rozmiar próbki wynosi 550 i używam 10-krotnej walidacji krzyżowej.

AFAIK, wśród metod regularyzacji (Lasso, ElasticNet i Ridge), Ridge jest bardziej rygorystyczny w zakresie korelacji między funkcjami. Właśnie dlatego spodziewałem się, że dzięki Ridge powinienem uzyskać dokładniejsze prognozy. Jednak moje wyniki pokazują, że średni błąd bezwzględny dla Lasso lub Gumki wynosi około 0,61, podczas gdy ten wynik wynosi 0,97 dla regresji grzbietu. Zastanawiam się, co by to wyjaśniało. Czy to dlatego, że mam wiele funkcji, a Lasso działa lepiej, ponieważ dokonuje pewnego rodzaju wyboru funkcji, pozbywając się zbędnych funkcji?

renakre
źródło
1
dlaczego twoim zdaniem grzbiet powinien działać lepiej? jaki jest twój rozmiar próbki?
bdeonovic
1
Co oznacza „bardziej rygorystyczny dla regresji”?
bdeonovic

Odpowiedzi:

21

Załóżmy, że masz dwie wysoce skorelowane zmienne predykcyjne , i załóżmy, że obie są wyśrodkowane i skalowane (co oznacza zero, wariancja jedna). Zatem kara za kalenicę na wektorze parametrów wynosi β 2 1 + β 2 2, natomiast kara za lasso wynosi β 1+ β 2 . Ponieważ model ma być wysoce współliniowy, więc x i z mniej więcej mogą się wzajemnie zastępować w przewidywaniu Y , tak wiele liniowych kombinacji x , z, w których po prostu podstawiamy w częścix,zβ12+β22β1+β2xzYx,z dla z , będzie działał bardzo podobnie jak predyktory, na przykład 0,2 x + 0,8 x , 0,3 x + 0,7 z lub 0,5 x + 0,5 zxz0.2x+0.8x,0.3x+0.7z0.5x+0.5zbędą równie dobre jak predyktory. Spójrzmy teraz na te trzy przykłady, kara lasso we wszystkich trzech przypadkach jest równa, wynosi 1, podczas gdy kara grzbietu różni się, wynosi odpowiednio 0,68, 0,58, 0,5, więc kara grzbietu preferuje równe ważenie zmiennych kolinearnych podczas kary lasso nie będzie mógł wybrać. Jest to jeden z powodów, dla których grzbiet (lub bardziej ogólnie, elastyczna siatka, która jest liniową kombinacją kar lasso i kalenicy) będzie działał lepiej z predyktorami kolinearnymi: gdy dane nie dają powodu, aby wybierać między różnymi liniowymi kombinacjami predyktorów kolinearnych, lasso po prostu „wędrować”, podczas gdy grzbiet zwykle wybiera taką samą wagę. To ostatnie może być lepszym przypuszczeniem do wykorzystania z przyszłymi danymi! A jeśli tak jest w przypadku obecnych danych, może się okazać w krzyżowej weryfikacji jako lepsze wyniki z grzebieniem.

Możemy to postrzegać w sposób bayesowski: grzbiet i lasso implikują różne wcześniejsze informacje, a wcześniejsze informacje sugerowane przez grzbiet wydają się być bardziej uzasadnione w takich sytuacjach. (To wyjaśnienie tutaj nauczyłem się, mniej więcej, z książki: „Statystyczne uczenie się ze sparsity Lasso i uogólnienia” Trevora Hastiego, Roberta Tibshirani i Martina Wainwrighta, ale w tej chwili nie byłem w stanie znaleźć bezpośredniego cytatu).

kjetil b halvorsen
źródło
4
Dobra uwaga na temat możliwości lepszego działania kalendarza na przyszłych danych. Zbyt często pomija się rozróżnienie między błędem weryfikacji krzyżowej w obecnych danych a przydatnością nowych danych. W przypadku niektórych szacunków tego ostatniego PO może powtórzyć cały proces tworzenia modelu LASSO, elastycznej siatki i modelu grzbietowego na wielu próbkach danych ładowania początkowego, a następnie zbadać błędy po zastosowaniu do pełnego zestawu danych. To przynajmniej testuje proces budowania modelu.
EdM
Nie jest dla mnie oczywiste, dlaczego korzystne byłoby wybranie równych wag dla danych współliniowych? Czy ktoś może rozwinąć tę kwestię?
Ramon Martinez,
3

najważniejsza różnica między lasso a grzbietem polega na tym, że lasso naturalnie dokonuje selekcji, szczególnie tam, gdzie zmienne towarzyszące są bardzo skorelowane. nie można być naprawdę pewnym, nie widząc dopasowanych współczynników, ale łatwo jest pomyśleć, że spośród tych skorelowanych cech wiele było po prostu bezużytecznych.

Carlo
źródło