Czy wzrosnąć, gdy

11

Jeśli β=argminβyXβ22+λβ1 , może β2 wzrosnąć, gdy λ wzrasta?

Myślę, że to jest możliwe. Chociaż β1 nie rośnie, gdy λ rośnie (mój dowód ), β2 może wzrosnąć. Poniższy rysunek pokazuje możliwość. Kiedy λ rośnie, jeśli β przemieszcza się (liniowo) od P do Q , wtedy β2 rośnie, podczas gdy β1 maleje. Ale nie wiem, jak skonstruować konkretny przykład (tj. Skonstruować X i y ), aby profil β zademonstrował to zachowanie. Jakieś pomysły? Dziękuję Ci.

wprowadź opis zdjęcia tutaj

ziyuang
źródło

Odpowiedzi:

10

Odpowiedź brzmi: tak, i masz tam dowód graficzny w .2

Sprawdź definicję równoważności norm wektorowych. Przekonasz się, że gdzie jest wymiarem wektora . Dlatego istnieje pewna przestrzeń do normy porównaniu do normy .

x2x1nx2,
nx21

W rzeczywistości problem, który chcesz rozwiązać, można określić jako:

Znajdź takie, że a jednocześnie d

x+d2>x2
x+d1<x1.

pierwszą nierówność, rozwiń i zobacz, że i że przyjmując, że i , otrzymujemy z drugiej nierówności, którą musimy mieć Każde które spełni te ograniczenia, zwiększy normę jednocześnie zmniejszając normę .

2ixidi>idi2
xi0xi+di0
idi<0.
d21

W twoim przykładzie, , , i a d[0.4,0.3]Tx:=P[0.5,0.6]T

idi0.1<0,
2iPidi0.04>0.25idi2.
Tommy L.
źródło
Ale jaki to ma związek z konstrukcją i ? Xy
ziyuang
3

Dzięki za odpowiedź @ TommyL, ale jego odpowiedź nie dotyczy bezpośrednio konstrukcji i . Jakoś sam to „rozwiązuję”. Po pierwsze, gdy wzrośnie, nie wzrośnie, gdy każde zmniejszy się monotonicznie. Dzieje się tak, gdy jest ortonormalny, w którym mamyXyλβ2βiX

βi=sign(βiLS)(βiLSλ)+

Geometrycznie w tej sytuacji porusza się prostopadle do konturu normy , więc nie może wzrosnąć.β1β2

W rzeczywistości Hastie i in. wspomniane w artykule Forward regresja stagewise i monotoniczny lasso , niezbędny i wystarczający warunek monotoniczności ścieżek profilu:

wprowadź opis zdjęcia tutaj

W części 6 artykułu skonstruowali sztuczny zestaw danych oparty na cząstkowo-liniowych funkcjach bazowych, co narusza powyższy warunek, pokazując niemonotoniczność. Ale jeśli mamy szczęście, możemy również utworzyć losowy zestaw danych demonstrujący podobne zachowanie, ale w prostszy sposób. Oto mój kod R:

library(glmnet)
set.seed(0)
N <- 10
p <- 15
x1 <- rnorm(N)
X <- mat.or.vec(N, p)
X[, 1] <- x1
for (i in 2:p) {X[, i] <- x1 + rnorm(N, sd=0.2)}
beta <- rnorm(p, sd=10)
y <- X %*% beta + rnorm(N, sd=0.01)
model <- glmnet(X, y, family="gaussian", alpha=1, intercept=FALSE)

Celowo pozwoliłem , aby kolumny wysoce skorelowane (daleko od przypadku ortonormalnego), a prawda ma zarówno duże pozytywne, jak i negatywne wpisy. Oto profil (nic dziwnego, że aktywowanych jest tylko 5 zmiennych):Xββ

wprowadź opis zdjęcia tutaj

oraz związek między i :λβ2

wprowadź opis zdjęcia tutaj

Tak więc widzimy, że dla pewnego przedziału , zwiększa się wzrasta.λβ2λ

ziyuang
źródło