Kiedy regularyzacja L1 będzie działać lepiej niż L2 i odwrotnie?

30

Uwaga: Wiem, że L1 ma właściwość wyboru funkcji. Próbuję zrozumieć, który wybrać, gdy wybór funkcji jest całkowicie nieistotny.

  1. Jak zdecydować, której regularyzacji (L1 lub L2) użyć?
  2. Jakie są zalety i wady każdej z regulacji L1 / L2?
  3. Czy zaleca się najpierw dokonać wyboru funkcji za pomocą L1, a następnie zastosować L2 do tych wybranych zmiennych?
GeorgeOfTheRF
źródło
2
Zauważ, że „wybór funkcji L1” należy raczej nazwać regularyzacją przestrzeni cech; istnieje wiele sposób lepsze metody turystyczne wybór funkcji rozumiane jako uzyskanie informacji, co jest istotne dla modelowanego problemu.
@mbq: Jestem ciekawy, które „lepsze metody” miałeś na myśli?
Ameba mówi Przywróć Monikę
1
Jak te wymienione tutaj .

Odpowiedzi:

31

Jak zdecydować, której regularyzacji (L1 lub L2) użyć?

Jaki jest twój cel Oba mogą poprawić uogólnienie modelu poprzez karanie współczynników, ponieważ cechy o przeciwnych stosunkach do wyniku mogą się „kompensować” (duża wartość dodatnia jest równoważona przez dużą wartość ujemną). Może to powstać, gdy występują elementy współliniowe. Niewielkie zmiany w danych mogą powodować radykalnie różne oszacowania parametrów (oszacowania dużej wariancji). Kary mogą ograniczyć oba współczynniki do mniejszych. (Hastie i in., Elements of Statistics Learning , 2. wydanie, s. 63)

Jakie są zalety i wady każdej z regulacji L1 / L2?

NN.

Normalizacja L1 jest czasem stosowana jako metoda wyboru cech. Załóżmy, że masz pewną ograniczoną liczbę funkcji, których możesz użyć (ponieważ zbieranie danych dla wszystkich funkcji jest drogie lub masz ścisłe ograniczenia techniczne, ile wartości możesz przechowywać itp.). Możesz spróbować dostroić karę L1, aby uzyskać pożądaną liczbę niezerowych funkcji.

Regularyzacja L2 może rozwiązać problem wielokoliniowości poprzez ograniczenie normy współczynnika i zachowanie wszystkich zmiennych. Jest mało prawdopodobne, aby oszacować współczynnik dokładnie na 0. Nie jest to niekoniecznie wada, chyba że z jakiegoś powodu ważny jest rzadki wektor współczynników.

W ustawieniach regresji jest to „klasyczne” rozwiązanie problemu szacowania regresji z większą liczbą funkcji niż obserwacji. Normalizacja L2 może oszacować współczynnik dla każdej cechy, nawet jeśli jest więcej cech niż obserwacji (w rzeczywistości była to pierwotna motywacja do „regresji grzbietu”).

Alternatywnie elastyczna siatka pozwala na regularyzację L1 i L2 w szczególnych przypadkach. Typowym przypadkiem zastosowania dla naukowca zajmującego się danymi w branży jest to, że chcesz wybrać najlepszy model, ale niekoniecznie obchodzi go, czy zostanie ukarany za pomocą L1, L2 lub obu. Elastyczna siatka sprawdza się w takich sytuacjach.

Czy zaleca się najpierw dokonać wyboru funkcji za pomocą L1, a następnie zastosować L2 do tych wybranych zmiennych?

Nie jestem zaznajomiony z publikacją proponującą potok L1, a następnie L2, ale to prawdopodobnie tylko ignorancja z mojej strony. Wydaje się, że nie ma w tym nic złego. Przeprowadziłbym przegląd literatury.

Istnieje kilka przykładów podobnych „fazowanych” rurociągów. Jednym z nich jest „zrelaksowane lasso”, które stosuje regresję lasso dwa razy , raz w celu zmniejszenia z dużej grupy do małej grupy cech, a następnie w celu oszacowania współczynników do zastosowania w modelu. Wykorzystuje to krzyżową weryfikację na każdym etapie, aby wybrać wielkość kary. Powodem jest to, że na pierwszym etapie weryfikujesz krzyżowo i prawdopodobnie wybierzesz dużą karę, aby odrzucić niepotrzebne predyktory; w drugim kroku weryfikujesz krzyżowo i prawdopodobnie wybierzesz mniejszą karę (a zatem większe współczynniki). Zostało to krótko wspomniane w Elements of Statistics Learning przywołując Nicolai Meinshausen („Relaxed Lasso.” Statystyka obliczeniowa i analiza danych Volume 52, Issue 1, 15 września 2007, str. 374-393).

Użytkownik @amoeba sugeruje również potok L1-następnie-OLS; może to być miłe, ponieważ ma tylko 1 hiperparametr dla wielkości kary L1, więc wymagane byłoby mniej skrzypania.

Jednym z problemów, który może powstać w przypadku dowolnego „etapowego” potoku analizy, który wykonuje niektóre kroki, a następnie kilka innych kroków osobno, jest brak „widoczności” między tymi różnymi algorytmami, więc jeden proces dziedziczy wszelkie szpiegowanie danych, które miało miejsce w poprzednich krokach. Ten efekt nie jest bez znaczenia; źle pomyślane modelowanie może prowadzić do modeli śmieciowych.

Jednym ze sposobów zabezpieczenia się przed skutkami ubocznymi podsłuchiwania danych jest wzajemna weryfikacja wszystkich wyborów. Jednak zwiększone koszty obliczeniowe mogą okazać się wygórowane.

Sycorax mówi Przywróć Monikę
źródło
Niestety nie podążyłem za odpowiedzią na mój trzeci punkt. Możesz wytłumaczyć?
GeorgeOfTheRF
1
Chodzi o prawidłowe uwzględnienie optymizmu. Z tego samego powodu, dla którego mierzymy wydajność danych poza próbką, konieczne jest wykonanie wszystkich kroków filtrowania / przetwarzania wstępnego w sposób, który nie pozwala na wyciek informacji między krokami. Jeśli dokonasz wyboru funkcji dla całego zestawu danych, a następnie przeprowadzisz analizę, w szumie znajdziesz sygnał.
Sycorax mówi Przywróć Monikę
Dobrze. Jakie jest zatem zalecane podejście do wyboru funkcji przed uruchomieniem modelu ML?
GeorgeOfTheRF
3
Moje zalecenie brzmi „nie”. Zobacz tutaj, jak to może pójść nie tak: stats.stackexchange.com/questions/164048/... Ale to jest wystarczająco różni się od twojego początkowego pytania, że ​​powinieneś po prostu zadać nowe pytanie. (Jest to na twoją korzyść, ponieważ będziesz mógł uzyskać dodatkowe powtórzenie w nowym pytaniu.)
Sycorax mówi Przywróć Monikę
3
(+1) Nie widziałem L1, a następnie L2 omawianych w literaturze, ale ma to dla mnie sens. Istnieją L1, po których następuje OLS (aka „hybryda LARS-OLS”) i L1, po których następuje L1 (zrelaksowane lasso), więc równie dobrze można rozważyć L1, po której następuje L2. Tak długo, jak oba hiperparametry są walidowane krzyżowo, powinna to być realna strategia regularyzacji.
ameba mówi Przywróć Monikę
19

Ogólnie rzecz biorąc, jeśli chcesz optymalnego przewidywania, użyj L2. Jeśli chcesz złagodzenia kary za ofiarę dyskryminacji predykcyjnej, użyj L1. Zauważ jednak, że parsimony może być iluzoryczne, np. Powtórzenie procesu lasso za pomocą bootstrapu często ujawni znaczną niestabilność na liście „wybranych” cech, zwłaszcza gdy predyktory są ze sobą skorelowane.

Frank Harrell
źródło
„Optymalne przewidywanie” - masz na myśli, że L2 ogólnie zapewnia lepszą dokładność w przypadku niewidzialnych danych?
GeorgeOfTheRF
3
Tak, szczególnie w odniesieniu do dyskryminacji predykcyjnej.
Frank Harrell,
1
+1 do tego komentarza (i odpowiedzi). Natrafiłem na to zjawisko polegające na tym, że jest zwykleL.2)L.1
2
Dyskryminacja predykcyjna jest pojęciem bardziej ogólnym niż klasyfikacja. Ale do tego stopnia, jest zwykle lepszy niż L 1L2L1 ponieważ nie wydaje żadnych informacji, próbując być oszczędnym. Pozwala zsumować wiele małych efektów.
Frank Harrell,
Fajnie, dziękuję za wyjaśnienie. Ma to sens. (Tak, masz rację; PD kojarzy mi się z miernikami dotyczącymi prawdopodobieństwa poprawnej klasyfikacji i / lub uporządkowania przedmiotów pod względem ryzyka, więc szybko powiedziałem „zadania klasyfikacyjne”; mój zły, powinienem być bardziej ostrożny.)
usεr11852 mówi: Przywróć Monic