Mam zestaw 150 funkcji, a wiele z nich jest ze sobą bardzo skorelowanych. Moim celem jest przewidzenie wartości zmiennej dyskretnej, której zakres wynosi 1-8 . Mój rozmiar próbki wynosi 550 i używam 10-krotnej walidacji krzyżowej.
AFAIK, wśród metod regularyzacji (Lasso, ElasticNet i Ridge), Ridge jest bardziej rygorystyczny w zakresie korelacji między funkcjami. Właśnie dlatego spodziewałem się, że dzięki Ridge powinienem uzyskać dokładniejsze prognozy. Jednak moje wyniki pokazują, że średni błąd bezwzględny dla Lasso lub Gumki wynosi około 0,61, podczas gdy ten wynik wynosi 0,97 dla regresji grzbietu. Zastanawiam się, co by to wyjaśniało. Czy to dlatego, że mam wiele funkcji, a Lasso działa lepiej, ponieważ dokonuje pewnego rodzaju wyboru funkcji, pozbywając się zbędnych funkcji?
Odpowiedzi:
Załóżmy, że masz dwie wysoce skorelowane zmienne predykcyjne , i załóżmy, że obie są wyśrodkowane i skalowane (co oznacza zero, wariancja jedna). Zatem kara za kalenicę na wektorze parametrów wynosi β 2 1 + β 2 2, natomiast kara za lasso wynosi ∣ β 1 ∣ + ∣ β 2 ∣ . Ponieważ model ma być wysoce współliniowy, więc x i z mniej więcej mogą się wzajemnie zastępować w przewidywaniu Y , tak wiele liniowych kombinacji x , z, w których po prostu podstawiamy w częścix,z β21+β22 ∣β1∣+∣β2∣ x z Y x,z dla z , będzie działał bardzo podobnie jak predyktory, na przykład 0,2 x + 0,8 x , 0,3 x + 0,7 z lub 0,5 x + 0,5 zx z 0.2x+0.8x,0.3x+0.7z 0.5x+0.5z będą równie dobre jak predyktory. Spójrzmy teraz na te trzy przykłady, kara lasso we wszystkich trzech przypadkach jest równa, wynosi 1, podczas gdy kara grzbietu różni się, wynosi odpowiednio 0,68, 0,58, 0,5, więc kara grzbietu preferuje równe ważenie zmiennych kolinearnych podczas kary lasso nie będzie mógł wybrać. Jest to jeden z powodów, dla których grzbiet (lub bardziej ogólnie, elastyczna siatka, która jest liniową kombinacją kar lasso i kalenicy) będzie działał lepiej z predyktorami kolinearnymi: gdy dane nie dają powodu, aby wybierać między różnymi liniowymi kombinacjami predyktorów kolinearnych, lasso po prostu „wędrować”, podczas gdy grzbiet zwykle wybiera taką samą wagę. To ostatnie może być lepszym przypuszczeniem do wykorzystania z przyszłymi danymi! A jeśli tak jest w przypadku obecnych danych, może się okazać w krzyżowej weryfikacji jako lepsze wyniki z grzebieniem.
Możemy to postrzegać w sposób bayesowski: grzbiet i lasso implikują różne wcześniejsze informacje, a wcześniejsze informacje sugerowane przez grzbiet wydają się być bardziej uzasadnione w takich sytuacjach. (To wyjaśnienie tutaj nauczyłem się, mniej więcej, z książki: „Statystyczne uczenie się ze sparsity Lasso i uogólnienia” Trevora Hastiego, Roberta Tibshirani i Martina Wainwrighta, ale w tej chwili nie byłem w stanie znaleźć bezpośredniego cytatu).
źródło
najważniejsza różnica między lasso a grzbietem polega na tym, że lasso naturalnie dokonuje selekcji, szczególnie tam, gdzie zmienne towarzyszące są bardzo skorelowane. nie można być naprawdę pewnym, nie widząc dopasowanych współczynników, ale łatwo jest pomyśleć, że spośród tych skorelowanych cech wiele było po prostu bezużytecznych.
źródło