Czy istnieje podobne twierdzenie dotyczące lasso? Jeśli istnieje takie twierdzenie, nie tylko zagwarantuje ono stabilność lasso, ale także zapewni lasso bardziej sensowną interpretację:
lasso może odkryć wektor współczynnika regresji rzadkiej który jest używany do wygenerowania odpowiedzi przez .
Są dwa powody, dla których zadaję to pytanie:
Myślę, że „lasso preferuje rzadkie rozwiązanie” nie jest odpowiedzią na to, dlaczego używamy lasso do wyboru funkcji, ponieważ nie jesteśmy nawet w stanie powiedzieć, jaka jest zaleta wybranych przez nas funkcji.
Dowiedziałem się, że lasso słynie z niestabilności w wyborze funkcji. W praktyce musimy uruchomić próbki bootstrap, aby ocenić jego stabilność. Jaki jest najważniejszy powód, który powoduje tę niestabilność?
Dodatek:
Biorąc pod uwagę . jest wektorem rzadkim ( ). Proces generuje odpowiedź . Jeśli ma NSP (właściwość pustego miejsca) rzędu a macierz kowariancji nie ma wartości własnej bliskiej zeru, będzie unikalne rozwiązanie dla
To twierdzenie mówi również, że jeśli nie ma NSP rzędu , po prostu beznadziejne jest rozwiązanie .Ω argmin c : y = X c ‖ c ‖ 1
EDYTOWAĆ:
Po otrzymaniu tych wspaniałych odpowiedzi zdałem sobie sprawę, że byłem zdezorientowany, kiedy zadawałem to pytanie.
Dlaczego to pytanie jest mylące:
Czytam artykuł badawczy, w którym musimy zdecydować, ile funkcji (kolumn) będzie miała macierz projektowa (funkcje pomocnicze są tworzone z funkcji pierwotnych). Ponieważ jest to typowy problem , oczekuje się, że będzie dobrze skonstruowany, dzięki czemu rozwiązanie lasso może być dobrym przybliżeniem rzeczywistego rozwiązania rzadkiego. n < p D
Rozumowanie opiera się na twierdzeniu, o którym wspomniałem w załączniku: jeśli chcemy znaleźć rozwiązanie rzadkie , lepiej jest mieć NSP rzędu .c X Ω
W przypadku ogólnej macierzy , jeśli zostanie naruszone, toN > C Ω ln M
brak stabilnego i stabilne odzyskiwanie z i jest możliwaD P
X odpowiada , odpowiaday
... zgodnie z oczekiwaniami w relacji , wybór deskryptora staje się bardziej niestabilny, tj. dla różnych zbiorów szkoleniowych wybrany deskryptor często się różni ...
Drugi cytat to ta część, która mnie myli. Wydaje mi się, że gdy naruszona zostanie nierówność, nie tylko rozwiązanie może być nieunikalne (nie wspomniane), ale deskryptor stanie się również bardziej niestabilny.
źródło
Odpowiedzi:
AKTUALIZACJA
Zobacz ten drugi post , aby uzyskać informacje zwrotne od McDonalda na temat mojej odpowiedzi, w której pojęcie spójności ryzyka jest związane ze stabilnością.
1) Wyjątkowość a stabilność
Na twoje pytanie trudno odpowiedzieć, ponieważ wymienia dwa bardzo różne tematy: wyjątkowość i stabilność .
Intuicyjnie rozwiązanie jest unikalne, jeśli przy ustalonym zestawie danych algorytm zawsze daje takie same wyniki. Odpowiedź Martina opisuje tę kwestię bardzo szczegółowo.
Z drugiej strony stabilność można intuicyjnie rozumieć jako taką, dla której prognozowanie nie zmienia się znacznie, gdy dane treningowe zostaną nieznacznie zmodyfikowane.
Stabilność dotyczy twojego pytania, ponieważ wybór funkcji Lasso jest (często) wykonywany przez Cross Validation, dlatego algorytm Lasso jest wykonywany na różnych fałdach danych i może dawać różne wyniki za każdym razem.
Twierdzenie o stabilności i braku darmowego lunchu
Używając stąd definicji , jeśli zdefiniujemy Jednorodną stabilność jako:
wtedy „Twierdzenie o braku darmowego lunchu, Xu i Caramis (2012)” stwierdza, że
Na przykład regresja jest stabilna i nie identyfikuje zbędnych funkcji, natomiast regulowana (Lasso) jest niestabilna. L 1L2 L1
Próba odpowiedzi na twoje pytanie
Idąc dalej
Nie oznacza to, że połączenie Cross Validation i Lasso nie działa ... w rzeczywistości wykazano eksperymentalnie (i przy dużej teorii wspierającej), że działa bardzo dobrze w różnych warunkach. Główne słowa kluczowe to spójność , ryzyko, nierówności wyroczni itp.
Następujące slajdy i artykuł McDonald i Homrighausen (2013) opisują niektóre warunki, w których dobór funkcji Lasso działa dobrze: slajdy i papier: „Lasso, trwałość i walidacja krzyżowa, McDonald i Homrighausen (2013)” . Sam Tibshirani również opublikował wielki zestaw notatek na temat rzadkości , regresji liniowej
Różne warunki spójności i ich wpływ na Lasso są aktywnym tematem badań i na pewno nie są trywialne. Mogę skierować Cię w stronę istotnych artykułów badawczych:
źródło
Komentarze Daniela J. McDonalda
Adiunkt na Uniwersytecie Indiana Bloomington, autor dwóch artykułów wymienionych w oryginalnej odpowiedzi Xaviera Bourreta Sicotte .
źródło
Lasso, w przeciwieństwie do regresji Ridge'a (patrz np. Hoerl i Kennard, 1970; Hastie i in., 2009), nie zawsze ma unikalne rozwiązanie, chociaż zazwyczaj ma. Zależy to od liczby parametrów w modelu, tego, czy zmienne są ciągłe czy dyskretne, oraz od rangi macierzy projektowej. Warunki wyjątkowości można znaleźć w Tibshirani (2013).
Bibliografia:
Hastie, T., Tibshirani, R., i Friedman, J. (2009). Elementy uczenia statystycznego . Seria Springera w statystykach. Springer, Nowy Jork, 11. druk, 2. wydanie.
Hoerl, AE i Kennard, RW (1970). Regresja grzbietu: błędne oszacowanie problemów nieortogonalnych. Technometrics , 12 (1), 55-67.
Tibshirani, RJ (2013). Problem lasso i wyjątkowość. Electronic Journal of Statistics , 7, 1456-1490.
źródło
Co powoduje niejednoznaczność.
Dla wektorów (gdzie jest znakiem wskazującym, czy zmiana wzrośnie, czy zmniejszys i c i ‖ c ‖ 1sixi si ci ∥c∥1 ), ilekroć są one zależne od siebie:
istnieje nieskończona liczba kombinacji , które nie zmieniają rozwiązania i normy X c ‖ c ‖ 1ci+γαi Xc ∥c∥1 .
Na przykład:
ma dla∥c∥1=1 rozwiązania:
z0≤γ≤12
Możemy w pewnym sensie zamienić wektor za pomocąx2 x2=0.5x1+0.5x3
Sytuacje bez tego warunku
W artykule Tibshirani (z odpowiedzi Phila) opisano trzy wystarczające warunki, aby lasso miał unikalne rozwiązanie.
Affinely niezależny Kiedy kolumnyXs są w ogólnej pozycji.
Oznacza to, że żadna kolumn nie reprezentuje punktów w płaszczyźnie wymiarowej . Płaszczyznę wymiarową k-2 można sparametryzować dowolnymi punktami jako z . Z punktem na tej samej płaszczyźnie miałbyś warunki zk k−2 k−1 ∑αisixi ∑αi=1 k sjxj ∑αisixi ∑αi=0
Zauważ, że w przykładzie kolumny , i znajdują się w jednym wierszu. (Jest to jednak nieco niewygodne, ponieważ znaki mogą być ujemne, np. Macierz właśnie jak również brak unikalnego rozwiązania)x1 x2 x3 [[21][11][−0−1]]
Gdy kolumny pochodzą z ciągłego rozkładu, jest mało prawdopodobne (prawdopodobieństwo prawie zero), że kolumny nie będą w ogólnej pozycji.XX X
W przeciwieństwie do tego, jeśli kolumny są zmienną kategorialną, prawdopodobieństwo to niekoniecznie jest prawie zerowe. Prawdopodobieństwo, że zmienna ciągła będzie równa pewnemu zestawowi liczb (tj. Płaszczyznom odpowiadającym rozpiętości afinicznej innych wektorów) wynosi „prawie” zero. Nie dotyczy to jednak zmiennych dyskretnych.X
źródło