Mam już pojęcie o zaletach i wadach regresji grzbietu i LASSO.
W przypadku LASSO kara karna L1 da rzadki wektor współczynnika, który można postrzegać jako metodę wyboru cech. Istnieją jednak pewne ograniczenia dotyczące LASSO. Jeśli funkcje mają wysoką korelację, LASSO wybierze tylko jedną z nich. Ponadto w przypadku problemów, w których > , LASSO wybierze co najwyżej parametrów ( i to odpowiednio liczba obserwacji i parametrów). To sprawia, że LASSO jest empirycznie metodą nieoptymalną pod względem przewidywalności w porównaniu z regresją grzbietu.n n n p
W przypadku regresji kalenicowej oferuje ogólnie lepszą przewidywalność. Jednak jego interpretacja nie jest tak przyjemna jak w przypadku LASSO.
Powyższe wyjaśnienie często można znaleźć w podręcznikach uczenia maszynowego / eksploracji danych. Nadal jednak jestem zdezorientowany dwiema rzeczami:
Jeśli znormalizujemy zakres cech (powiedzmy między 0 a 1 lub z zerową średnią i wariancją jednostkową) i uruchomimy regresję grzbietu, możemy nadal mieć pojęcie o znaczeniu cechy, sortując wartości bezwzględne współczynników (najważniejsza cecha ma najwyższa bezwzględna wartość współczynników). Chociaż nie wybieramy funkcji jawnie, interpretacja nie jest tracona przy użyciu regresji grzbietu. Jednocześnie nadal możemy osiągnąć wysoką moc predykcyjną. Dlaczego więc potrzebujemy LASSO? Czy coś mi umyka?
Czy LASSO jest preferowany ze względu na charakter wyboru funkcji? Według mnie powodem, dla którego potrzebujemy wyboru funkcji, jest możliwość uogólnienia i łatwość obliczeń.
Aby ułatwić obliczenia, nie chcemy wprowadzać do naszego modelu wszystkich 1 miliona operacji, jeśli wykonujemy niektóre zadania NLP, więc najpierw upuszczamy niektóre oczywiście bezużyteczne funkcje, aby zmniejszyć koszty obliczeniowe. Jednak w przypadku LASSO możemy poznać wynik wyboru funkcji (wektor rzadki) dopiero po wprowadzeniu wszystkich danych do naszego modelu, więc nie czerpiemy korzyści z LASSO pod względem zmniejszenia kosztów obliczeniowych. Możemy tylko przewidywać nieco szybciej, ponieważ teraz wprowadzamy tylko podzbiór funkcji (powiedzmy 500 z 1 miliona) do naszego modelu, aby wygenerować przewidywane wyniki.
Jeśli LASSO jest preferowane ze względu na jego zdolność do uogólnienia, możemy również osiągnąć ten sam cel za pomocą regresji grzbietu (lub innego rodzaju regularyzacji). Dlaczego potrzebujemy ponownie LASSO (lub elastycznych sieci)? Dlaczego nie możemy po prostu trzymać się regresji grzbietowej?
Czy ktoś mógłby rzucić na to trochę światła? Dzięki!
Odpowiedzi:
Jeśli zamówisz milion skalowanych, skalowanych, ale niezerowych funkcji, będziesz musiał podjąć jakąś decyzję: przyjrzysz się n najlepszym predyktorom, ale co to jest n ? LASSO rozwiązuje ten problem w sposób zasadniczy, obiektywny, ponieważ na każdym kroku na ścieżce (i często osiedlasz się w jednym punkcie np. Poprzez walidację krzyżową), istnieją tylko m współczynniki niezerowe.
Bardzo często trenujesz modele na niektórych danych, a następnie stosujesz je do niektórych danych, które nie zostały jeszcze zebrane. Na przykład możesz dopasować swój model do 50 000 000 wiadomości e-mail, a następnie użyć tego modelu przy każdym nowym e-mailu. To prawda, że zmieścisz go w pełnym zestawie funkcji dla pierwszych 50 000 000 wiadomości e-mail, ale w przypadku każdej kolejnej wiadomości e-mail będziesz mieć do czynienia z dużo rzadszym i szybszym modelem o większej wydajności pamięci. Nie będziesz nawet musiał zbierać informacji o usuniętych funkcjach, co może być bardzo pomocne, jeśli funkcje są drogie w wydobyciu, np. Przez genotypowanie.
Inną perspektywą na problem L1 / L2 ujawnioną np. Przez Andrew Gelmana jest to, że często masz intuicję, jaki może być twój problem. W niektórych okolicznościach możliwe jest, że rzeczywistość jest naprawdę rzadka. Być może zmierzyłeś miliony genów, ale prawdopodobne jest, że tylko 30 000 z nich faktycznie determinuje metabolizm dopaminy. W takiej sytuacji L1 prawdopodobnie lepiej pasuje do problemu.
W innych przypadkach rzeczywistość może być gęsta. Na przykład w psychologii „wszystko koreluje (do pewnego stopnia) ze wszystkim” (Paul Meehl). Preferencje dla jabłek vs. pomarańczy prawdopodobnie nie korelują ze skłonności politycznych jakoś - i nawet z IQ. Regularizacja może nadal mieć tutaj sens, ale prawdziwe efekty zerowe powinny być rzadkie, więc L2 może być bardziej odpowiednie.
źródło
Interpretowalność zmniejsza się, jeśli cel zależy od wielu funkcji. Zwiększa się, jeśli możemy zmniejszyć liczbę funkcji, a także zachować dokładność. Normalizacja grzbietu nie ma możliwości zmniejszenia liczby funkcji. Ale Lasso ma taką zdolność. Jak to się dzieje, wyjaśniono wizualnie w następującym linku:
Kliknij artykuł w kierunku Nauki o danych
źródło