Staram się podsumować to, co do tej pory rozumiałem w karanej analizie wielowymiarowej z wielowymiarowymi zestawami danych, i wciąż uzyskanie właściwej definicji kary miękkiego progowania w porównaniu z penalizacją Lasso (lub ).
Dokładniej, wykorzystałem rzadką regresję PLS do analizy 2-blokowej struktury danych, w tym danych genomowych ( polimorfizmy pojedynczego nukleotydu , gdzie rozważamy częstotliwość mniejszego allelu w zakresie {0,1,2}, uważaną za zmienną liczbową) i ciągłe fenotypy (wyniki kwantyfikujące cechy osobowości lub asymetrię mózgową, również traktowane jako zmienne ciągłe). Chodziło o wyodrębnienie najbardziej wpływowych predyktorów (tutaj odmian genetycznych w sekwencji DNA) w celu wyjaśnienia międzyosobniczych odmian fenotypowych.
Początkowo korzystałem z pakietu mixOmics R (dawniej integrOmics
), który zawiera karaną regresję PLS i uregulowany CCA . Patrząc na kod R, stwierdziliśmy, że „rzadkość” w predyktorach jest po prostu indukowana przez wybranie najlepszych zmiennych o najwyższych ładunkach (w wartości bezwzględnej) na tym składniku, (algorytm to iteracyjne i obliczeniowe ładowanie zmiennych na komponentach, deflacja bloku predyktorów przy każdej iteracji, zobacz Rzadki PLS: Wybór zmiennych podczas integracji danych Omics ). Przeciwnie, pakiet spls jest współautorem S. Keleş (patrzRzadka częściowa regresja najmniejszych kwadratów dla jednoczesnej redukcji wymiarów i selekcji zmiennych , dla bardziej formalnego opisu podejścia podjętego przez tych autorów) implementuje L_1 dla zmiennej penalizacji.
Nie jest dla mnie oczywiste, czy istnieje ścisły „biject”, że tak powiem, między iteracyjnym wyborem funkcji opartym na miękkim progowaniu a regulacją . Moje pytanie brzmi: czy istnieje między nimi jakaś matematyczna zależność?
Bibliografia
- Chun, H. and Kele ̧s, S. (2010), Rzadkie częściowe najmniejsze kwadraty dla równoczesnej redukcji wymiarów i wyboru zmiennych . Journal of Royal Statistics Society: Series B , 72 , 3–25.
- Le Cao, K.-A., Rossouw, D., Robert-Granie, C., i Besse, P. (2008), A Sparse PLS for Variable Selection when Integring Omics Data . Zastosowania statystyczne w genetyce i biologii molekularnej , 7 , art. 35.
lars
pakiet R; inne metody obejmują opadanie współrzędnych (patrz JSS 2010 33 (1), bit.ly/bDNUFo ), ascikit.learn
pakiet Python oferuje oba podejścia, bit.ly/bfhnZz .źródło