Relaksacja Lagrangian w kontekście regresji kalenicowej

W „Elementach uczenia statystycznego” (wydanie drugie), s. 63, autorzy podają następujące dwa sformułowania problemu regresji kalenicy:

{\hat{β}}^{r i d g e} = \underset{β}{argmin} {\sum_{i = 1}^{N} (y_{i} - β_{0} - \sum_{j = 1}^{p} x_{i j} β_{j})^{2} + λ \sum_{j = 1}^{p} β_{j}^{2}}

$\hat{\beta}^{ridge} = \underset{\beta}{\operatorname{argmin}} \left\{ \sum_{i=1}^N(y_i-\beta_0-\sum_{j=1}^p x_{ij} \beta_j)^2 + \lambda \sum_{j=1}^p \beta_j^2 \right\}$

{\hat{β}}^{r i d g e} = \underset{β}{argmin} \sum_{i = 1}^{N} (y_{i} - β_{0} - \sum_{j = 1}^{p} x_{i j} β_{j})^{2}, subject to \sum_{j = 1}^{p} β_{j}^{2} \leq t .

$\hat{\beta}^{ridge} = \underset{\beta}{\operatorname{argmin}} \sum_{i=1}^N(y_i-\beta_0-\sum_{j=1}^p x_{ij} \beta_j)^2 \text{, subject to } \sum_{j=1}^p \beta_j^2 \leq t.$

Uważa się, że te dwa są równoważne, i że istnieje przyporządkowanie jeden-do-jednego między parametrami i . $\lambda$ $t$

Wydaje się, że pierwsze sformułowanie jest lagranżowskim rozluźnieniem drugiego. Jednak nigdy nie miałem intuicyjnego zrozumienia, jak i dlaczego działają relaksacje Lagrangian.

Czy istnieje prosty sposób wykazania, że te dwa preparaty są rzeczywiście równoważne? Gdybym musiał wybrać, wolałbym intuicję niż rygor.

Dzięki.

ridge-regression NPE
źródło

Jeśli potrzebujesz jedynie intuicyjnego wyjaśnienia, przejdź do 1.03.26 tego filmu (do końca), istnieje intuicyjne wyjaśnienie, w jaki sposób ograniczenia odnoszą się do funkcji celu.

user603

Relaksacja Lagrangian w kontekście regresji kalenicowej

Odpowiedzi: