Próbuję zrozumieć, w jaki sposób można zmodyfikować algorytm Larsa w celu wygenerowania Lasso. Chociaż rozumiem LARS, nie jestem w stanie zobaczyć modyfikacji Lasso z pracy Tibshirani i in. W szczególności nie rozumiem, dlaczego warunek znaku w tym, że znak niezerowej współrzędnej musi zgadzać się ze znakiem bieżącej korelacji. Czy ktoś mógłby mi z tym pomóc. Chyba szukam matematycznego dowodu przy użyciu warunku KKT na pierwotnym problemie normy L-1, tj. Lasso. Dzięki wielkie!
12
Odpowiedzi:
Niech (rozmiar ) oznacza zestaw standardowych danych wejściowych, (rozmiar ) wyśrodkowane odpowiedzi, (rozmiar ) wagi regresji i a -normalny współczynnik karania.X n×p y n×1 β p×1 λ>0 l1
Problem LASSO zapisuje następnie
Rozwiązanie tego dla wszystkich wartości daje tak zwaną ścieżkę regularyzacji LASSO .λ>0 β∗(λ)
Dla stałej wartości współczynnika karania (tj. Stałej liczby aktywnych predyktorów = ustalony krok algorytmu LARS), możliwe jest wykazanie, że spełnia (wystarczy zapisać warunek stacjonarności KKT, jak w tym przypadku odpowiedź )λ∗ β∗
gdzie reprezentuje zestaw aktywnych predyktorów.A
Ponieważ musi być dodatnia (jest to współczynnik karania), jasne jest, że znak (waga dowolnego niezerowego, a więc aktywnego predyktora) powinien być taki sam jak tj. Korelacja z obecną resztkową regresją.λ∗ β∗a XTa(y−Xβ∗)=XTar
źródło
@ Mr._White podał świetne intuicyjne wyjaśnienie głównej różnicy między LARS a Lasso; Jedyne, co chciałbym dodać, to to, że lasso jest (w pewnym sensie) podejściem do selekcji wstecznej, znokautowując termin na każdym kroku, o ile istnieje termin, dla którego istnieje korelacja („znormalizowana” względem ). LARS utrzymuje wszystko tam - po prostu wykonując lasso w każdej możliwej kolejności. Oznacza to, że w lasso każda iteracja zależy od tego, które warunki zostały już usunięte.X×X
Implementacja Effrona dobrze ilustruje różnice między nimi: lars.R w źródłowym pkg dla larsa . Zwróć uwagę na krok aktualizacji macierzy macierzy i rozpoczynający się od linii 180, oraz porzucenie warunków, dla których . Mogę sobie wyobrazić niektóre dziwne sytuacje wynikające ze spacji których warunki są niezrównoważone ( i są bardzo skorelowane, ale nie z innymi, z ale nie z innymi itd.), Kolejność wyboru może być dość stronnicza.X×X ζ ζmin<ζcurrent A x1 x2 x2 x3
źródło