Regresja najmniejszego kąta vs. lasso

39

Regresja przy najmniejszym kącie i lasso mają tendencję do tworzenia bardzo podobnych ścieżek regularyzacji (identycznych, z wyjątkiem przypadków, gdy współczynnik przekracza zero).

Oba mogą być skutecznie dopasowane za pomocą praktycznie identycznych algorytmów.

Czy jest jakiś praktyczny powód, aby preferować jedną metodę od drugiej?

regression lasso NPE
źródło

Jeśli w tym momencie ponownie ocenisz odpowiedzi, czy wybierzesz inną „zaakceptowaną” odpowiedź?

Aaron Hall

13

Twierdzenia „bez darmowego lunchu” sugerują, że nie ma a priori rozróżnienia między algorytmami wnioskowania statystycznego, tj. To, czy LARS czy LASSO działa najlepiej, zależy od charakteru konkretnego zestawu danych. W praktyce najlepiej jest wypróbować jedno i drugie i użyć pewnego wiarygodnego estymatora wydajności uogólnienia, aby zdecydować, którego użyć w działaniu (lub użyć zestawu). Ponieważ różnice między LARS i LASSO są raczej niewielkie, różnice w wydajności prawdopodobnie będą również niewielkie, ale ogólnie jest tylko jeden sposób, aby się przekonać!

Dikran Torbacz
źródło

Czy możesz rozwinąć możliwą „metodę zespołu” w tym konkretnym przypadku?

chl

35

W trybie etapowym algorytm LARS jest chciwą metodą, która nie daje możliwego do udowodnienia spójnego estymatora (innymi słowy, nie osiąga stabilnego wyniku po zwiększeniu liczby próbek).

I odwrotnie, LASSO (a zatem algorytm LARS, gdy jest używany w trybie LASSO) rozwiązuje problem dopasowania wypukłych danych. W szczególności problem ten (penalizowany estymator liniowy L1) ma wiele sprawdzonych właściwości (konsystencja, sparsistencja).

Dlatego starałbym się zawsze używać LARS w trybie LASSO (lub użyć innego solvera dla LASSO), chyba że masz bardzo dobre powody, aby preferować etapy.

Gael Varoquaux
źródło

9

LASSO nie jest algorytmem per se, ale operatorem.

$\ell_1$

Kolejnym jest LARS, bardzo popularny ze względu na swoją prostotę, połączenie z postępowymi procedurami (ale niezbyt zachłannymi), bardzo konstruktywny dowód i łatwą generalizację.

Nawet w porównaniu z najnowszymi kwadratowymi rozwiązaniami programistycznymi, LARS może być znacznie bardziej wydajny.

Georgi
źródło

9

$l_1$ $l_1$ $l_2$

Zamiarem tej odpowiedzi jest wskazanie, że LARS wydaje się być zastąpiony metodami współrzędnego opadania i stochastycznej metody opadania współrzędnych . Metody te opierają się na szczególnie prostych algorytmach, a jednocześnie wydajność wydaje się być wyższa niż LARS (często o jeden lub dwa rzędy wielkości szybsze). Przykłady podano w pracy Friedmana i in.

Jeśli więc planujesz wdrożyć LARS, nie rób tego. Użyj opadania współrzędnych, co zajmuje kilka godzin.

davidhigh
źródło

1

+1 za brak implementacji LARS, ale zejście ze współrzędnymi: ma ustawienia, w których jest lepsze niż zejście ze współrzędnymi (na przykład w przypadku bardzo małych i niewielkich problemów, które są bardzo rzadkie, zobacz tezę Juliena Mairala dla porównań empirycznych), ale jest bardzo trudne do wdrożenia, znacznie trudniejsze niż zejście współrzędnych.

Gael Varoquaux

3

$\lambda$

Oto moja opinia:

$C_p$

Ponadto LARS jest obliczeniowo szybki i niezawodny. Lasso jest szybki, ale istnieje niewielka różnica między algorytmem, która powoduje, że LARS wygrywa wyzwanie prędkości. Z drugiej strony istnieją alternatywne pakiety, na przykład w R, zwane „glmnet”, które działają bardziej niezawodnie niż pakiet lars (ponieważ jest bardziej ogólny).

Podsumowując, nie ma nic znaczącego, co można by rozważyć w przypadku Larsa i Lasso. Zależy to od kontekstu, w którym będziesz używać modelu.

Osobiście radzę używać glmnet w R zarówno w przypadkach o wysokim, jak i niskim wymiarze. lub jeśli jesteś zainteresowany innymi kryteriami, możesz użyć pakietu http://cran.r-project.org/web/packages/msgps/ .

TPArrow
źródło

0

W niektórych kontekstach preferowana może być uregulowana wersja rozwiązania najmniejszych kwadratów. Na przykład algorytm LASSO (operator najmniejszego bezwzględnego skurczu i selekcji) znajduje rozwiązanie najmniejszych kwadratów z ograniczeniem, że | β | 1, norma L1 wektora parametru, jest nie większa niż podana wartość. Odpowiednio, może rozwiązać nieograniczoną minimalizację kary za najmniejsze kwadraty za pomocą α | β | 1 dodano, gdzie α jest stałą (jest to forma Lagrange'a ograniczonego problemu). Problem ten można rozwiązać za pomocą programowania kwadratowego lub bardziej ogólnych metod optymalizacji wypukłej, a także za pomocą określonych algorytmów, takich jak algorytm regresji najmniejszego kąta. Preparat z regulacją L1 jest przydatny w niektórych kontekstach ze względu na jego tendencję do preferowania rozwiązań o mniejszej liczbie niezerowych parametrów, skutecznie zmniejszając liczbę zmiennych, od których zależy dane rozwiązanie [11] Z tego powodu LASSO i jego warianty mają fundamentalne znaczenie w dziedzinie wykrywania skompresowanego.

mariana bardziej miękka
źródło

5

Z szacunkiem wygląda to na bezpośrednie kopiowanie i wklejanie z Wikipedii i tak naprawdę nie odpowiada na pytanie.

NPE,

3

(-1) Przynajmniej powinieneś potwierdzić cytat z Wikipedii, § dotyczący metody LASSO na en.wikipedia.org/wiki/Least_squares !!! BTW, zapomniałeś wkleić 11. referencję.

chl

Zapomniałem podać link, to prawda, ale myślę, że to dobra odpowiedź na te pytania. Przepraszam, jeśli

kazałem

n ≪ p

$n\ll p$

Regresja najmniejszego kąta vs. lasso

Odpowiedzi: