Dlaczego lambda „w granicach jednego błędu standardowego od minimum” jest zalecaną wartością dla lambda w regresji elastycznej sieci?

24

Rozumiem, jaką rolę odgrywa lambda w regresji sieci elastycznej. Rozumiem, dlaczego należy wybrać lambda.min, wartość lambda, która minimalizuje błąd zwalidowany krzyżowo.

Moje pytanie brzmi: gdzie w literaturze statystycznej zaleca się stosowanie lambda.1se, czyli takiej wartości lambda, która minimalizuje błąd CV plus jeden błąd standardowy ? Nie mogę znaleźć formalnego cytatu, ani nawet powodu, dla którego jest to często dobra wartość. Rozumiem, że jest to bardziej restrykcyjna regularyzacja i bardziej skurczę parametry do zera, ale nie zawsze jestem pewien warunków, w których lambda.1se jest lepszym wyborem niż lambda.min. Czy ktoś może pomóc wyjaśnić?

jhersh
źródło
5
Formalne odniesienie można znaleźć w Hastie i in. „Elementy uczenia statystycznego” strona 61. Nie dają one jednak uzasadnienia dla tego wyboru ...
Richard Hardy
Zobacz stats.stackexchange.com/questions/80268 .
ameba mówi Przywróć Monikę

Odpowiedzi:

22

Friedman, Hastie i Tibshirani (2010) , powołując się na elementy uczenia statystycznego , pisz,

Często wybieramy najlepszy model, stosując zasadę „jeden błąd standardowy”; potwierdza to fakt, że krzywe ryzyka są szacowane z błędem, więc popełniają błędy po stronie oszczędności.

Wydaje się, że powodem użycia jednego standardowego błędu, a nie jakiejkolwiek innej kwoty, jest to, że ... no cóż ... standardowy. Krstajic i wsp. (2014) piszą (odważne podkreślenie moje):

Breiman i in. [25] stwierdzili, w przypadku wyboru optymalnego rozmiaru drzewa do modeli drzew klasyfikacyjnych, że rozmiar drzewa z minimalnym błędem walidacji krzyżowej generuje model, który ogólnie jest nadmierny. Dlatego w sekcji 3.4.3 ich książki Breiman i in. [25] zdefiniuj jedną standardową regułę błędu (reguła 1 SE) do wyboru optymalnego rozmiaru drzewa i wdrażają ją w całej książce. Aby obliczyć błąd standardowy dla walidacji krzyżowej pojedynczego krotności V, dokładność należy obliczyć dla każdego krotności, a błąd standardowy oblicza się na podstawie dokładności V dla każdego krotności. Hastie i in. [4] zdefiniuj zasadę 1 SE jako wybranie najbardziej oszczędnego modelu, którego błąd jest nie większy niż jeden błąd standardowy powyżej błędu najlepszego modelu, i sugerują w kilku miejscach zastosowanie reguły 1 SE do ogólnego zastosowania walidacji krzyżowej.Głównym punktem zasady 1 SE, z którą się zgadzamy, jest wybór najprostszego modelu, którego dokładność jest porównywalna z najlepszym modelem .

Sugeruje się, że wybór jednego błędu standardowego jest całkowicie heurystyczny, w oparciu o poczucie, że jeden błąd standardowy zwykle nie jest duży w stosunku do zakresu wartości .λ

Shadowtalker
źródło
1
Dziękuję Ci! Teraz mogę wreszcie przytoczyć coś odpowiedniego, gdy pojawia się pytanie dla tych, którzy nie znają „standardowego” wyboru lambda. Link do Krstajica i innych również wygląda świetnie.
jhersh
Cytat ten mówi tylko, że „1se zostało uznane za optymalne do klasyfikacji ”. Ale pytanie o regresję ! Istnieją alternatywy. Jeśli spróbujemy np. Cofnąć się do 2se, otrzymamy problem, że lambda jest zbyt duża i zbyt mocno kurczy współczynniki. Ale moglibyśmy np. Odbudować model, który wyklucza wszystkie zmienne niewybrane w lambda.1se w oryginalnym modelu.
smci
@smci który cytat? Nie ma go w żadnym z cytowanych przeze mnie cytatów, które sugerują, że zasada 1-SE ma zastosowanie ogólnie, nie tylko w klasyfikacji.
shadowtalker
6

Książka Breimana i wsp. (Cytowana w cytacie z innej odpowiedzi Krstajica) jest najstarszym odniesieniem, jakie znalazłem dla reguły 1SE.

Oto Breiman, Friedman, Stone oraz Olshen's Classification and Regression Trees (1984). „Wywodzą” tę zasadę z sekcji 3.4.3.

Więc jeśli potrzebujesz formalnego cytatu, wydaje się, że jest to oryginalne źródło.

Civilstat
źródło