Grzbiet, lasso i elastyczna siatka

33

Jak porównują metody regulowania grzbietów, LASSO i elasticnetu? Jakie są ich zalety i wady? Doceniony zostanie również każdy dobry artykuł techniczny lub notatki z wykładu.

użytkownik3269
źródło

Odpowiedzi:

39

W książce The Elements of Statistics Learning Hastie i in. zapewniają bardzo wnikliwe i dokładne porównanie tych technik skurczu. Książka jest dostępna online ( pdf ). Porównanie odbywa się w rozdziale 3.4.3, strona 69.

Główną różnicą między Lasso i Ridge jest kara, której używają. Grzbiet wykorzystuje kary określenie, które ogranicza wielkość wektora współczynników. Lasso stosuje karę L 1, która narzuca rzadkość między współczynnikami, a tym samym sprawia, że ​​dopasowany model jest bardziej interpretowalny. Elastyczna siatka została wprowadzona jako kompromis między tymi dwiema technikami i ma karę, która jest mieszanką norm L 1 i L 2 .L2L1L1L2

MMM
źródło
3
To wspaniały podręcznik.
bdeonovic
4
także dlatego, że autorzy są wynalazcami tych technik!
Bakaburg
1
Dziękujemy za odniesienie do tej pięknej książki
Christiny
1
Bardzo polecam także sekcję 18.4, strony 661-668. Dostarcza więcej informacji na temat lasso kontra elastyczna siatka.
Katya Handler
1
Link do książki nie żyje od 14 października 2016 r.
Ashe
22

Podsumowując, oto kilka istotnych różnic między Lasso, Ridge i Elastic-net:

  1. Lasso dokonuje rzadkiego wyboru , a Ridge nie.
  2. Kiedy masz wysoce skorelowane zmienne , regresja Ridge'a zmniejsza dwa współczynniki względem siebie. Lasso jest nieco obojętny i na ogół wybiera jeden po drugim. W zależności od kontekstu nie wiadomo, która zmienna zostanie wybrana. Siatka elastyczna to kompromis między tymi dwoma, które próbują się zmniejszyć i dokonać rzadkiego wyboru jednocześnie.
  3. Estymatory graniczne są obojętne na multiplikatywne skalowanie danych. Oznacza to, że jeśli zarówno zmienne X, jak i Y zostaną pomnożone przez stałe, współczynniki dopasowania nie zmienią się dla danego parametru . Jednak w przypadku Lasso dopasowanie nie jest niezależne od skalowania. W rzeczywistości parametr λ musi zostać powiększony przez mnożnik, aby uzyskać ten sam wynik. Jest bardziej złożony w przypadku elastycznej siatki.λλ
  4. β
balsamy
źródło
@ balaks za drugi punkt, który podałeś, co to znaczy „nie wiadomo, która zmienna zostanie wybrana”? Czy miałeś na myśli, że LASSO jest obojętny, więc losowo wybiera jednego, więc tak naprawdę nie wiemy, który z nich jest najlepszy?
meTchaikovsky,
4

Bardzo polecam zapoznać się ze wstępem do statystycznej książki do nauki (Tibshirani i in., 2013).

Powodem tego jest to, że książka ze statystycznymi elementami do nauki jest przeznaczona dla osób z zaawansowanym wykształceniem w dziedzinie nauk matematycznych. We wstępie do ISL autorzy piszą:

Wprowadzenie do statystycznego uczenia wynikały z postrzeganej potrzeby szerszego i mniej technicznym leczeniu tych tematów. [...]

Wprowadzenie do uczenia statystycznego jest odpowiednie dla zaawansowanych studentów i studentów studiów magisterskich w dziedzinie statystyki lub pokrewnych dziedzin ilościowych lub dla osób z innych dyscyplin, które chcą korzystać ze statystycznych narzędzi edukacyjnych do analizy swoich danych.

jeza
źródło
1
Czy możesz wyjaśnić, dlaczego uważasz, że to odniesienie jest przydatne?
JM nie jest statystykiem
1
Dobrze jest cytować książkę, ale proszę zaznaczyć ją jako cytat, a nie jako własny tekst. W przeciwnym razie jest to plagiat. Zredagowałem to teraz dla ciebie.
ameba mówi Przywróć Monikę
1

Powyższe odpowiedzi są bardzo jasne i zawierają wiele informacji. Chciałbym dodać jeden drobny punkt z punktu widzenia statystyki. Weźmy jako przykład regresję grzbietu. Jest to rozszerzenie regresji najmniejszych kwadratów w celu rozwiązania problemów wielokoliniowości, gdy istnieje wiele skorelowanych cech. Jeśli regresja liniowa wynosi

Y=Xb+e

Rozwiązanie równania normalnego dla wielokrotnej regresji liniowej

b=inv(X.T*X)*X.T*Y

Normalnym rozwiązaniem równania dla regresji kalenicowej jest

b=inv(X.T*X+k*I)*X.T*Y. 

Jest to tendencyjny estymator dla b i zawsze możemy znaleźć warunek karny k, który sprawi, że średni błąd kwadratowy regresji Ridge'a będzie mniejszy niż błąd regresji OLS.

W przypadku LASSO i Elastic-Net nie mogliśmy znaleźć takiego rozwiązania analitycznego.

Emma
źródło