Rozumiem, jaką rolę odgrywa lambda w regresji sieci elastycznej. Rozumiem, dlaczego należy wybrać lambda.min, wartość lambda, która minimalizuje błąd zwalidowany krzyżowo.
Moje pytanie brzmi: gdzie w literaturze statystycznej zaleca się stosowanie lambda.1se, czyli takiej wartości lambda, która minimalizuje błąd CV plus jeden błąd standardowy ? Nie mogę znaleźć formalnego cytatu, ani nawet powodu, dla którego jest to często dobra wartość. Rozumiem, że jest to bardziej restrykcyjna regularyzacja i bardziej skurczę parametry do zera, ale nie zawsze jestem pewien warunków, w których lambda.1se jest lepszym wyborem niż lambda.min. Czy ktoś może pomóc wyjaśnić?
Odpowiedzi:
Friedman, Hastie i Tibshirani (2010) , powołując się na elementy uczenia statystycznego , pisz,
Wydaje się, że powodem użycia jednego standardowego błędu, a nie jakiejkolwiek innej kwoty, jest to, że ... no cóż ... standardowy. Krstajic i wsp. (2014) piszą (odważne podkreślenie moje):
Sugeruje się, że wybór jednego błędu standardowego jest całkowicie heurystyczny, w oparciu o poczucie, że jeden błąd standardowy zwykle nie jest duży w stosunku do zakresu wartości .λ
źródło
Książka Breimana i wsp. (Cytowana w cytacie z innej odpowiedzi Krstajica) jest najstarszym odniesieniem, jakie znalazłem dla reguły 1SE.
Oto Breiman, Friedman, Stone oraz Olshen's Classification and Regression Trees (1984). „Wywodzą” tę zasadę z sekcji 3.4.3.
Więc jeśli potrzebujesz formalnego cytatu, wydaje się, że jest to oryginalne źródło.
źródło