Dlaczego regresja kalenicy nie może zapewnić lepszej interpretacji niż LASSO?

Mam już pojęcie o zaletach i wadach regresji grzbietu i LASSO.

W przypadku LASSO kara karna L1 da rzadki wektor współczynnika, który można postrzegać jako metodę wyboru cech. Istnieją jednak pewne ograniczenia dotyczące LASSO. Jeśli funkcje mają wysoką korelację, LASSO wybierze tylko jedną z nich. Ponadto w przypadku problemów, w których > , LASSO wybierze co najwyżej parametrów ( i to odpowiednio liczba obserwacji i parametrów). To sprawia, że LASSO jest empirycznie metodą nieoptymalną pod względem przewidywalności w porównaniu z regresją grzbietu. $p$ $n$ $n$ $n$ $p$

W przypadku regresji kalenicowej oferuje ogólnie lepszą przewidywalność. Jednak jego interpretacja nie jest tak przyjemna jak w przypadku LASSO.

Powyższe wyjaśnienie często można znaleźć w podręcznikach uczenia maszynowego / eksploracji danych. Nadal jednak jestem zdezorientowany dwiema rzeczami:

Jeśli znormalizujemy zakres cech (powiedzmy między 0 a 1 lub z zerową średnią i wariancją jednostkową) i uruchomimy regresję grzbietu, możemy nadal mieć pojęcie o znaczeniu cechy, sortując wartości bezwzględne współczynników (najważniejsza cecha ma najwyższa bezwzględna wartość współczynników). Chociaż nie wybieramy funkcji jawnie, interpretacja nie jest tracona przy użyciu regresji grzbietu. Jednocześnie nadal możemy osiągnąć wysoką moc predykcyjną. Dlaczego więc potrzebujemy LASSO? Czy coś mi umyka?
Czy LASSO jest preferowany ze względu na charakter wyboru funkcji? Według mnie powodem, dla którego potrzebujemy wyboru funkcji, jest możliwość uogólnienia i łatwość obliczeń.

Aby ułatwić obliczenia, nie chcemy wprowadzać do naszego modelu wszystkich 1 miliona operacji, jeśli wykonujemy niektóre zadania NLP, więc najpierw upuszczamy niektóre oczywiście bezużyteczne funkcje, aby zmniejszyć koszty obliczeniowe. Jednak w przypadku LASSO możemy poznać wynik wyboru funkcji (wektor rzadki) dopiero po wprowadzeniu wszystkich danych do naszego modelu, więc nie czerpiemy korzyści z LASSO pod względem zmniejszenia kosztów obliczeniowych. Możemy tylko przewidywać nieco szybciej, ponieważ teraz wprowadzamy tylko podzbiór funkcji (powiedzmy 500 z 1 miliona) do naszego modelu, aby wygenerować przewidywane wyniki.

Jeśli LASSO jest preferowane ze względu na jego zdolność do uogólnienia, możemy również osiągnąć ten sam cel za pomocą regresji grzbietu (lub innego rodzaju regularyzacji). Dlaczego potrzebujemy ponownie LASSO (lub elastycznych sieci)? Dlaczego nie możemy po prostu trzymać się regresji grzbietowej?

Czy ktoś mógłby rzucić na to trochę światła? Dzięki!

feature-selection lasso regularization ridge-regression elastic-net Brad Li
źródło

To sprawia, że LASSO jest empirycznie metodą nieoptymalną pod względem przewidywalności w porównaniu z regresją grzbietu. Nie zgadzam się. Nie sądzę, że LASSO jest ogólnie gorsze (lub lepsze) niż grań w zakresie przewidywania. Jak mówi @jona w swojej odpowiedzi, możesz napotkać sytuacje, w których niektóre funkcje naprawdę nie należą do modelu, a wtedy LASSO będzie bardziej skuteczne w ich wyrzuceniu. Jednak z grzbietem uwzględnione zostaną wszystkie funkcje, a te nieistotne zakłócą prognozy. Dlatego potrzebujemy elastycznej siatki - aby dane decydowały o odpowiedniej kombinacji

L_{1}

$L_1$

L_{2}

$L_2$

Richard Hardy,

Zastanawiam się także, które podręczniki mówią takie rzeczy, jak regresja kalenicy, ogólnie oferuje lepszą przewidywalność (w przeciwieństwie do LASSO, rozumiem, nie w przeciwieństwie do regresji nieograniczonej). Być może ogólny nie jest tak ogólny w ich użyciu. Jaką interpretację mają przynieść metody regularyzacji? (Również Shmueli „To Explain or To Predict” (2010) to niezły kawałek, choć nie jest bezpośrednio powiązany.)

Richard Hardy

@RichardHardy, masz rację. Teraz uważniej przeczytałem ten podręcznik i stwierdziłem, że „ ani regresja grzbietu, ani lasso nie zdominują innych ” na stronie 223, Wprowadzenie do nauki statystycznej z zastosowaniem w R , Gareth James i in.

Brad Li

@RichardHardy, pierwotnie znalazłem podobne argumenty za regularyzacją L1 na LIBLINEAR FAQ: csie.ntu.edu.tw/~cjlin/liblinear/…

Brad Li

Czy biegi grzbietu i Lasso na prawdziwym przykładzie lub dwóch wyjaśniłyby różnice? (Ale nie są łatwe do porównania - dopasowanie fabuły vs. rzadkość?)

den

Odpowiedzi:

Jeśli zamówisz milion skalowanych, skalowanych, ale niezerowych funkcji, będziesz musiał podjąć jakąś decyzję: przyjrzysz się n najlepszym predyktorom, ale co to jest n ? LASSO rozwiązuje ten problem w sposób zasadniczy, obiektywny, ponieważ na każdym kroku na ścieżce (i często osiedlasz się w jednym punkcie np. Poprzez walidację krzyżową), istnieją tylko m współczynniki niezerowe.
Bardzo często trenujesz modele na niektórych danych, a następnie stosujesz je do niektórych danych, które nie zostały jeszcze zebrane. Na przykład możesz dopasować swój model do 50 000 000 wiadomości e-mail, a następnie użyć tego modelu przy każdym nowym e-mailu. To prawda, że zmieścisz go w pełnym zestawie funkcji dla pierwszych 50 000 000 wiadomości e-mail, ale w przypadku każdej kolejnej wiadomości e-mail będziesz mieć do czynienia z dużo rzadszym i szybszym modelem o większej wydajności pamięci. Nie będziesz nawet musiał zbierać informacji o usuniętych funkcjach, co może być bardzo pomocne, jeśli funkcje są drogie w wydobyciu, np. Przez genotypowanie.

Inną perspektywą na problem L1 / L2 ujawnioną np. Przez Andrew Gelmana jest to, że często masz intuicję, jaki może być twój problem. W niektórych okolicznościach możliwe jest, że rzeczywistość jest naprawdę rzadka. Być może zmierzyłeś miliony genów, ale prawdopodobne jest, że tylko 30 000 z nich faktycznie determinuje metabolizm dopaminy. W takiej sytuacji L1 prawdopodobnie lepiej pasuje do problemu.
W innych przypadkach rzeczywistość może być gęsta. Na przykład w psychologii „wszystko koreluje (do pewnego stopnia) ze wszystkim” (Paul Meehl). Preferencje dla jabłek vs. pomarańczy prawdopodobnie nie korelują ze skłonności politycznych jakoś - i nawet z IQ. Regularizacja może nadal mieć tutaj sens, ale prawdziwe efekty zerowe powinny być rzadkie, więc L2 może być bardziej odpowiednie.

jona
źródło

y = - 2 x_{1} + 3 x_{2} - x_{3}

$y = -2x_{1} + 3x_{2}-x_{3}$

x_{2} > x_{1} > x_{3}

$x_{2} > x_{1} > x_{3}$

[0, 1]

$[0, 1]$

Brad Li

Oczywiście możesz je posortować, ale nadal będziesz musiał podjąć jakąś decyzję dotyczącą tego, na jaki podzbiór patrzysz.

jona

Innym sposobem sformułowania tego byłoby: ridge może pomóc w wyborze funkcji, LASSO dokonuje wyboru funkcji.

jona

@Brad, oprócz doskonałej odpowiedzi jony (+1), zauważ, że ocenianie znaczenia funkcji na podstawie znormalizowanego współczynnika regresji jest jednym z możliwych podejść, ale nie jedynym; istnieją różne miary „znaczenia cech” i mogą one z łatwością dać sprzeczne wyniki. Zobacz ten wątek na długą dyskusję: stats.stackexchange.com/questions/64010 .

ameba

Interpretowalność zmniejsza się, jeśli cel zależy od wielu funkcji. Zwiększa się, jeśli możemy zmniejszyć liczbę funkcji, a także zachować dokładność. Normalizacja grzbietu nie ma możliwości zmniejszenia liczby funkcji. Ale Lasso ma taką zdolność. Jak to się dzieje, wyjaśniono wizualnie w następującym linku:

Kliknij artykuł w kierunku Nauki o danych

solver149
źródło