Próg miękki a penalizacja Lasso

11

Staram się podsumować to, co do tej pory rozumiałem w karanej analizie wielowymiarowej z wielowymiarowymi zestawami danych, i wciąż uzyskanie właściwej definicji kary miękkiego progowania w porównaniu z penalizacją Lasso (lub ).L1

Dokładniej, wykorzystałem rzadką regresję PLS do analizy 2-blokowej struktury danych, w tym danych genomowych ( polimorfizmy pojedynczego nukleotydu , gdzie rozważamy częstotliwość mniejszego allelu w zakresie {0,1,2}, uważaną za zmienną liczbową) i ciągłe fenotypy (wyniki kwantyfikujące cechy osobowości lub asymetrię mózgową, również traktowane jako zmienne ciągłe). Chodziło o wyodrębnienie najbardziej wpływowych predyktorów (tutaj odmian genetycznych w sekwencji DNA) w celu wyjaśnienia międzyosobniczych odmian fenotypowych.

Początkowo korzystałem z pakietu mixOmics R (dawniej integrOmics), który zawiera karaną regresję PLS i uregulowany CCA . Patrząc na kod R, stwierdziliśmy, że „rzadkość” w predyktorach jest po prostu indukowana przez wybranie najlepszych zmiennych o najwyższych ładunkach (w wartości bezwzględnej) na tym składniku, (algorytm to iteracyjne i obliczeniowe ładowanie zmiennych na komponentach, deflacja bloku predyktorów przy każdej iteracji, zobacz Rzadki PLS: Wybór zmiennych podczas integracji danych Omics ). Przeciwnie, pakiet spls jest współautorem S. Keleş (patrzkii=1,,kkRzadka częściowa regresja najmniejszych kwadratów dla jednoczesnej redukcji wymiarów i selekcji zmiennych , dla bardziej formalnego opisu podejścia podjętego przez tych autorów) implementuje L_1 dla zmiennej penalizacji.L1

Nie jest dla mnie oczywiste, czy istnieje ścisły „biject”, że tak powiem, między iteracyjnym wyborem funkcji opartym na miękkim progowaniu a regulacją . Moje pytanie brzmi: czy istnieje między nimi jakaś matematyczna zależność?L1

Bibliografia

  1. Chun, H. and Kele ̧s, S. (2010), Rzadkie częściowe najmniejsze kwadraty dla równoczesnej redukcji wymiarów i wyboru zmiennych . Journal of Royal Statistics Society: Series B , 72 , 3–25.
  2. Le Cao, K.-A., Rossouw, D., Robert-Granie, C., i Besse, P. (2008), A Sparse PLS for Variable Selection when Integring Omics Data . Zastosowania statystyczne w genetyce i biologii molekularnej , 7 , art. 35.
chl
źródło

Odpowiedzi:

2

To, co powiem, dotyczy regresji, ale powinno być prawdą również w przypadku PLS. Więc to nie jest bijection, ponieważ zależnie od tego, jak bardzo wymuszasz ograniczenie w , będziesz mieć różne „odpowiedzi”, podczas gdy drugie rozwiązanie dopuszcza tylko p możliwych odpowiedzi (gdzie p jest liczbą zmiennych) <-> tam więcej rozwiązań w L 1 formulacji, niż w „obcinania” preparacie.l1ppl1

użytkownik603
źródło
@kwak Ok, algorytm LARS wydaje się znacznie bardziej wyrafinowany niż proste ustalanie progu znaczenia zmiennej, ale chodzi o to, że nie widzę wyraźnej zależności między parametrem kary a liczbą zmiennych, które należy zachować w modelu; wydaje mi się, że niekoniecznie musimy znaleźć parametr kary, który dałby dokładnie ustaloną liczbę zmiennych.
chl
@chl:> S-PLS masz na myśli? (napisałeś LARS, który różni się od jednego z omawianych algorytmów). Rzeczywiście, istnieje monotonna zależność między parametrem kary a liczbą składników, ale nie jest to liniowy ciąg relacji i ta zależność zmienia się zależnie od przypadku (zależnie od zestawu danych / problemu).
user603,
@kwak L1-karę można osiągnąć za pomocą LARS, chyba że wprowadzam w błąd. Wasz drugi punkt jest tym, co mam na myśli; Czy masz jakieś odniesienia na ten temat?
chl
@chl:> * Karę L1 można osiągnąć za pomocą LARS, chyba że wprowadzam w błąd * nie wiedziałem o tym (i wątpię w to). Czy możesz podać referencje? Dzięki. na drugie pytanie: spójrz na „stopnie swobody” lasso Hui Zou, Trevor Hastie i Roberta Tibshirani Źródło: Ann. Statystyk. Tom 35, nr 5 (2007), 2173–2192. (istnieje wiele nieautoryzowanych wersji).
user603,
1
@kwak Sprawdź stronę Tibshirani , www-stat.stanford.edu/~tibs/lasso.html i larspakiet R; inne metody obejmują opadanie współrzędnych (patrz JSS 2010 33 (1), bit.ly/bDNUFo ), a scikit.learnpakiet Python oferuje oba podejścia, bit.ly/bfhnZz .
chl
6

L.1L.1

L.1XX1

X

vqv
źródło
(+1) Dzięki za to, szczególnie artykuł Friedmana.
chl