LASSO zależność pomiędzy

10

Rozumiem, że regresja LASSO jest taka, że ​​współczynniki regresji są wybrane w celu rozwiązania problemu minimalizacji:

minβy-Xβ2)2) s.t.β1t

W praktyce odbywa się to za pomocą mnożnika Lagrange'a, co powoduje problem do rozwiązania

minβy-Xβ2)2)+λβ1

Jaki jest związek między λ i t ? Wikipedia niepoprawnie stwierdza, że ​​jest „zależna od danych”.

Dlaczego mnie to obchodzi? Po pierwsze dla intelektualnej ciekawości. Jestem jednak zaniepokojony konsekwencjami wyboru λ przez cross-validation.

W szczególności, jeśli przeprowadzam n-krotną walidację krzyżową, dopasowuję n różnych modeli do n różnych partycji moich danych treningowych. Następnie porównuję dokładność każdego z modeli na nieużywanych danych dla danego λ . Ale to samo λ implikuje inne ograniczenie ( t ) dla różnych podzbiorów danych (tj. t=fa(λ) jest „zależne od danych”).

Czy naprawdę nie chcę rozwiązać problemu weryfikacji krzyżowej, aby znaleźć wartość t która zapewnia najlepszy kompromis w zakresie dokładności odchylenia?

Mogę z grubsza zorientować się w wielkości tego efektu w praktyce, obliczając dla każdego podziału weryfikacji krzyżowej i i patrząc na wynikowy rozkład. W niektórych przypadkach domniemane ograniczenie ( ) może się znacznie różnić cicho w moich podzbiorach weryfikacji krzyżowej. Gdzie przez istotnie mam na myśli współczynnik zmienności . λ t t > > 0β1λtt>>0

ConstantAmateur
źródło
5
Upvoting, aby anulować niewyjaśnione głosowanie negatywne. Pytanie to jest poza moją wiedzą specjalistyczną, ale wydaje się być dość sformułowane.
mkt - Przywróć Monikę

Odpowiedzi:

2

To standardowe rozwiązanie regresji kalenicy :

β=(XX+λI)1Xy

Wiemy również, że , więc to musi być prawdaβ=t

(XX+λI)1Xy=t
.

co nie jest łatwe do rozwiązania dla .λ

Najlepszym rozwiązaniem jest po prostu robienie tego, co robisz: obliczanie na tej samej podpróbce danych dla wielu wartości .tλ

Shadowtalker
źródło