Jeśli interesująca jest tylko prognoza, po co używać lasso nad grzbietem?

37

Na stronie 223 we wstępie do nauki statystycznej autorzy podsumowują różnice między regresją grzbietu a lasso. Podają przykład (ryc. 6.9), kiedy „lasso ma tendencję do przewyższania regresji grzbietu pod względem stronniczości, wariancji i MSE”.

Rozumiem, dlaczego lasso może być pożądane: skutkuje rzadkimi rozwiązaniami, ponieważ zmniejsza wiele współczynników do 0, co skutkuje prostymi i możliwymi do interpretacji modelami. Ale nie rozumiem, w jaki sposób może on przewyższyć grzbiet, gdy interesujące są tylko prognozy (tj. W jaki sposób uzyskuje się znacznie niższy MSE w przykładzie?).

Z grzbietem, jeśli wiele predyktorów prawie nie ma wpływu na odpowiedź (z kilkoma predyktorami mającymi duży efekt), czy ich współczynniki nie zostaną po prostu zmniejszone do niewielkiej liczby bardzo bliskiej zeru ... w wyniku czego powstanie coś bardzo podobnego do lasso ? Dlaczego więc ostateczny model miałby gorsze wyniki niż lasso?

Oliver Angelil
źródło
2
Widziałem ten link. To nie odpowiada na pytanie.
Oliver Angelil,

Odpowiedzi:

34

Masz rację, zadając to pytanie. Zasadniczo, gdy stosowana jest właściwa reguła punktacji dokładności (np. Średni błąd prognozowania do kwadratu), regresja grzbietu przewyższy lasso. Lasso spędza niektóre informacje, próbując znaleźć „właściwe” predyktory i w wielu przypadkach nie jest to świetne. Względna wydajność tych dwóch będzie zależeć od rozkładu rzeczywistych współczynników regresji. Jeśli w rzeczywistości masz niewielką część niezerowych współczynników, lasso może działać lepiej. Osobiście używam grzbietu prawie cały czas, gdy jestem zainteresowany dokładnością predykcyjną.

Frank Harrell
źródło
1
czy zdarzają się przypadki, gdy nie interesuje Cię dokładność predykcyjna?
Walrus the Cat
1
@WalrustheCat Niektórzy ludzie, zazwyczaj pochodzący ze Stanford, opowiadają się za użyciem Lasso w selekcji zmiennych wielowymiarowych. Przypuszczalnie Frank miał na myśli „… przede wszystkim zainteresowany precyzją predykcyjną”, a nie po prostu „… zainteresowany precyzją predykcyjną”, choć moim zdaniem różnica między tymi dwoma jest pedantyczna.
John Madden
Nigdy nie rozumiałem podejścia „regularyzacja jako redukcja wymiarów”. Możesz przeprowadzić redukcję wymiarów, albo przez regularyzację lasso, albo nie, a następnie użyć najlepszej funkcji regularyzacji dla oryginalnego problemu na wynikowych funkcjach. Ale dygresję.
Walrus the Cat
9
Z „Zasadniczo [...] regresja grzbietu przewyższy lasso” i „Jeśli masz niewielki ułamek niezerowych współczynników w prawdzie, lasso może osiągać lepsze wyniki” wydaje się, że w większości problemów z prognozowaniem prawda podstawowa nie jest rzadka. Czy to właśnie mówisz?
ameba mówi Przywróć Monikę
5
Tak głównie. Jeśli znasz prawdę podstawową „w rozkładzie”, utworzyłbyś wcześniejszy rozkład Bayesa dla nieznanych współczynników regresji, który zapewniłby ci optymalne wyniki. I nawet jeśli powiedzmy, że 3/4 predyktorów ma dokładnie zerowy efekt, grzbiet konkuruje z lasso.
Frank Harrell,
11

Myślę, że konkretna konfiguracja przykładu, do którego się odwołujesz, jest kluczem do zrozumienia, dlaczego lasso przewyższa grzbiet: tylko 2 z 45 predyktorów są rzeczywiście istotne.

Graniczy to z patologicznym przypadkiem: lasso, specjalnie zaprojektowane w celu ułatwienia redukcji do zera, działa dokładnie tak, jak zamierzono, podczas gdy grań będzie musiała poradzić sobie z dużą liczbą bezużytecznych terminów (nawet ich działanie jest zmniejszone do zera, wciąż jest to efekt niezerowy).

mbrig
źródło