Dlaczego warto używać grupowego lasso zamiast lasso?

13

Przeczytałem, że grupa lasso służy do wyboru zmiennych i rzadkości w grupie zmiennych. Chcę poznać intuicję tego twierdzenia.

Dlaczego lasso grupowe jest lepsze od lasso?
Dlaczego ścieżka rozwiązania lasso grupowe nie jest fragmentarycznie liniowa?

regression feature-selection lasso regularization Wendeta
źródło

1

To, co rozumiem z Yuan i Lin (2006), że lasso jest przeznaczone do wybierania poszczególnych zmiennych, a nie wyboru czynników. Zatem lasso rozwiązuje problem ANOVA, w którym celem jest wybranie ważnych głównych efektów i interakcji w celu dokładnego prognozowania, co sprowadza się do wyboru grup zmiennych. Innym przykładem jest model addytywny z wielomianem, w którym każdy składnik jest wyrażony jako liniowa kombinacja funkcji bazowych oryginalnych zmiennych mierzonych

Vendetta

11

Intuicyjnie mówiąc, lasso grupowe może być preferowane od lasso, ponieważ zapewnia nam możliwość włączenia (pewnego rodzaju) dodatkowych informacji do naszego oszacowania dla prawdziwego współczynnika . Jako scenariusz ekstremalny, biorąc pod uwagę następujące kwestie: $\beta^*$

Używając , ustaw jako wsparcie dla . Rozważ estymator „oracle” czyli lasso grupowe z dwiema grupami - jedna prawdziwa obsługa i jeden uzupełnienie. Niech będzie najmniejszą wartością która sprawia, że . Ze względu na charakter grupowej kary lasso wiemy, że w przenosi się z do (dla niektórych małych $y \sim \mathcal{N} (X \beta^*, \sigma^2 I )$ $S = \{j : \beta^*_j \neq 0 \}$ $\beta^*$

\hat{β} = \arg min_{β} ‖ y - X β ‖_{2)}^{2)} + λ (| S. |^{1 / 2)} ‖ β_{S.} ‖_{2)} + (p - | S. |)^{1 / 2)} ‖ β_{{S.}^{do}} ‖_{2)}),

$\hat{\beta} = \arg\min_{\beta} \|y - X \beta\|_2^2 + \lambda \left( |S|^{1/2} \|\beta_S\|_2 + (p-|S|)^{1/2} \|\beta_{S^C}\|_2 \right),$

λ_{m a x}

$\lambda_{max}$

λ

$\lambda$

\hat{β} = 0

$\hat{\beta} = 0$

λ

$\lambda$

λ_{m a x}

$\lambda_{max}$

λ_{m a x} - ϵ

$\lambda_{max} - \epsilon$

ϵ > 0

$\epsilon > 0$ ), dokładnie jedna grupa wejdzie do wspierania , która jest powszechnie uważany za oszacowania dla . Ze względu na nasze grupowanie, z dużym prawdopodobieństwem, wybrana grupa będzie i wykonamy doskonałą robotę.

\hat{β}

$\hat{\beta}$

S

$S$

S

$S$

W praktyce nie wybieramy tak dobrze grup. Jednak grupy, mimo że są lepsze niż w ekstremalnym scenariuszu powyżej, nadal nam pomogą: nadal będzie dokonywany wybór między grupą prawdziwych zmiennych towarzyszących i grupą nieprawdziwych zmiennych towarzyszących. Wciąż pożyczamy siłę.

Jest to tutaj sformalizowane . Pokazują one, pod pewnymi warunkami, że górna granica błędu prognozowania lasso grupowego jest niższa niż dolna granica błędu prognozowania zwykłego lasso. Oznacza to, że udowodnili, że dzięki grupowaniu nasze szacunki są lepsze.

W przypadku drugiego pytania: (zwykła) kara lasso jest fragmentarycznie liniowa, co daje początek częściowej liniowej ścieżce rozwiązania. Intuicyjnie, w przypadku lassa grupowego, kara nie jest już podzielona liniowo, więc nie mamy już tej właściwości. Świetne odniesienie do fragmentarycznej liniowości ścieżek rozwiązania znajduje się tutaj . Zobacz ich propozycję 1. Niech i . Pokazują, że ścieżka rozwiązania lasso grupy jest liniowa wtedy i tylko wtedy, gdy jest częściowo stała. Oczywiście nie jest tak, ponieważ nasza kara ma globalną krzywiznę. $L(\beta) = \|y - X \beta\|_2^2$ $J(\beta) = \sum_{g \in G} |g|^{1/2} \|\beta_g\|_2$

{(\nabla^{2)} L. (\hat{β}) + λ \nabla^{2)} jot (\hat{β}))}^{- 1} \nabla jot (\hat{β})

$\left( \nabla^2L(\hat{\beta}) + \lambda \nabla^2 J(\hat{\beta}) \right)^{-1} \nabla J(\hat{\beta})$

J

$J$

użytkownik795305
źródło

2

Teraz ma to sens. Wielkie dzięki za odpowiedź.

Vendetta,

4

Odpowiedź Bena to najbardziej ogólny wynik. Jednak intuicyjna odpowiedź na OP jest uzasadniona przypadkiem predyktorów jakościowych, które zwykle są kodowane jako wiele zmiennych zastępczych: po jednej dla każdej kategorii. W wielu analizach sensowne jest rozważanie tych zmiennych zastępczych (reprezentujących jeden predyktor jakościowy) razem, a nie osobno.

Jeśli masz zmienną kategorialną z, powiedzmy, pięcioma poziomami, prosty lasso może zostawić dwa wejścia i trzy wyjścia. Jak sobie z tym poradzić w sposób zasadowy? Zdecydować się głosować? Dosłownie użyć zmiennych zastępczych zamiast bardziej znaczących kategorii? W jaki sposób kodowanie pozorne wpływa na twoje wybory?

Jak mówią we wprowadzeniu Lasso grupowe dla regresji logistycznej , wspomina:

Już w przypadku szczególnego przypadku regresji liniowej, gdy obecne są nie tylko ciągłe, ale również jakościowe predyktory (czynniki), rozwiązanie lasso nie jest zadowalające, ponieważ wybiera tylko indywidualne zmienne zastępcze zamiast całych czynników. Ponadto rozwiązanie lasso zależy od sposobu kodowania zmiennych fikcyjnych. Wybranie różnych kontrastów dla predyktora jakościowego zapewni ogólnie różne rozwiązania.

Jak zauważa Ben, między predyktorami istnieją również bardziej subtelne powiązania, które mogą wskazywać, że powinny one znajdować się razem lub na zewnątrz. Ale zmienne kategoryczne są potomkiem plakatu dla grupowego lasso.

Wayne
źródło

@Ben: Hmmm ... Naprawdę nie rozumiem pierwszego komentarza OP. Wygląda na to, że jest to odpowiedź na teraz usunięty komentarz? Samo pytanie i jego tytuł - to, co przeczyta większość widzów - wydaje się pytaniem ogólnym. Z pewnością usunę moją odpowiedź, jeśli pytanie i tytuł zostaną zmienione na coś o „Jakie nieoczywiste zastosowania są zgrupowane lasso poza przypadkami zmiennych kategorialnych?”

Wayne

W porządku. Podoba mi się twój punkt widzenia na temat tego, jak użycie (prostego) lassa na czynnikach sprawia, że oszacowania zależą od kodowania czynników! Wcześniej myślałem o grupowym lasso jako o rodzaju „rzadkości pomiaru” zamiast „rzadkości parametru” (tj. Powinniśmy zmierzyć współczynnik, czy nie - wszystkie poziomy należy wybrać lub nie wybrać)

user795305

Dlaczego warto używać grupowego lasso zamiast lasso?

Odpowiedzi: