Co to jest regularyzacja elastyczna i jak rozwiązuje wady Ridge ( ) i Lasso ( )?

Odpowiedzi:

42

1. Która metoda jest preferowana?

Tak, elastyczna siatka jest zawsze preferowana w stosunku do regresji lasso i kalenicy, ponieważ rozwiązuje ona ograniczenia obu metod, a jednocześnie uwzględnia każdą z nich jako przypadki szczególne. Jeśli więc rozwiązanie grzbietowe lub lasso jest rzeczywiście najlepsze, wówczas każda dobra procedura wyboru modelu zidentyfikuje to jako część procesu modelowania.

Komentarze do mojego postu wskazują, że zalety elastycznej siatki nie są niekwalifikowane. Utrzymuję przekonanie, że ogólna regresja elastycznej sieci jest nadal lepsza niż sama regularyzacja lub . W szczególności uważam, że punkty sporne między mną a innymi są bezpośrednio związane z tym, jakie założenia jesteśmy gotowi poczynić w związku z procesem modelowania. W przypadku silnej wiedzy na temat danych bazowych niektóre metody będą preferowane od innych. Jednak moja preferencja dla elastycznej siatki jest zakorzeniona w moim sceptycyzmie, że można śmiało wiedzieć, że lub jest prawdziwym modelem.L1L2L1L2

  1. Twierdzenie: Wcześniejsza wiedza może wyeliminować potrzebę stosowania elastycznej regresji sieci.

To jest trochę okrągłe. Wybacz mi, jeśli jest to trochę glib, ale jeśli wiesz, że LASSO (grzbiet) jest najlepszym rozwiązaniem, nie będziesz się zastanawiać, jak odpowiednio go wymodelować; wystarczy dopasować model LASSO (kalenica). Jeśli jesteś absolutnie pewien, że poprawną odpowiedzią jest regresja LASSO (grzbiet), to jesteś wyraźnie przekonany, że nie byłoby powodu, aby marnować czas na zakładanie elastycznej siatki. Ale jeśli jesteś nieco mniej pewny, czy LASSO (grzbiet) jest właściwym sposobem postępowania, uważam, że warto oszacować bardziej elastyczny model i ocenić, jak mocno dane wspierają wcześniejsze przekonanie.

  1. Twierdzenie: Skromnie duże dane nie pozwalają na wykrycie rozwiązań lub zgodnie z preferencjami, nawet w przypadkach, gdy rozwiązaniem lub jest prawdziwy model.L1L2L1L2

Jest to również prawdą, ale myślę, że jest kołowy z podobnego powodu: jeśli oszacowałeś optymalne rozwiązanie i stwierdzisz, że to jest to model obsługiwany przez dane. Z jednej strony tak, twój oszacowany model nie jest prawdziwym modelem, ale muszę się zastanawiać, skąd wiadomo, że prawdziwy model to (lub ) przed jakimkolwiek oszacowaniem modelu. Mogą istnieć domeny, w których posiadasz taką wiedzę, ale moja praca zawodowa nie jest jedną z nich.α{0,1},α=1α=0

  1. Twierdzenie: Wprowadzenie dodatkowych hiperparametrów zwiększa koszt obliczeniowy oszacowania modelu.

Jest to istotne tylko wtedy, gdy masz ścisłe ograniczenia czasowe / komputerowe; w przeciwnym razie to tylko uciążliwość. GLMNET to złoty algorytm do szacowania elastycznych rozwiązań sieciowych. Użytkownik podaje pewną wartość alfa i wykorzystuje właściwości ścieżki rozwiązania regularyzacji do szybkiego oszacowania rodziny modeli dla różnych wartości wielkości kary , i często może oszacować tę rodzinę rozwiązań szybciej niż oszacowanie tylko jedno rozwiązanie dla określonej wartości . Tak, więc korzystanie z GLMNET przenosi cię do dziedziny stosowania metod w stylu siatki (iteruj po niektórych wartościach i pozwól GLMNET wypróbować różne ), ale jest dość szybki.λλαλ

  1. Twierdzenie: Nie jest gwarantowana poprawa wydajności elastycznej siatki w stosunku do regresji LASSO lub regresji kalenicy.

To prawda, ale na etapie, w którym zastanawia się, którą metodę zastosować, nie wiadomo, która z elastycznych siatek, grzbietów lub LASSO jest najlepsza. Jeśli jednym z powodów, dla których najlepszym rozwiązaniem musi być LASSO lub regresja kalenicy, jesteśmy w domenie roszczenia (1). Jeśli nadal nie jesteśmy pewni, który jest najlepszy, możemy przetestować rozwiązania LASSO, kalenicy i elastycznej siatki i dokonać wyboru ostatecznego modelu w tym momencie (lub, jeśli jesteś naukowcem, po prostu napisz swoją pracę na temat wszystkich trzech ). Ta sytuacja wcześniejszej niepewności albo umieści nas w dziedzinie roszczenia (2), gdzie prawdziwym modelem jest LASSO / grzbiet, ale nie wiedzieliśmy tego wcześniej i przypadkowo wybieramy niewłaściwy model z powodu źle zidentyfikowanych hiperparametrów, lub elastyczna siatka jest właściwie najlepszym rozwiązaniem.

  1. Twierdzenie: Wybór hiperparametrów bez weryfikacji krzyżowej jest wysoce stronniczy i podatny na błędy .

Prawidłowa walidacja modelu jest integralną częścią każdego przedsiębiorstwa uczącego się maszynowo. Sprawdzanie poprawności modelu jest zwykle również kosztownym krokiem, więc staramy się tutaj zminimalizować nieefektywności - jeśli jedna z tych nieefektywności niepotrzebnie próbuje wypróbować wartości , o których wiadomo, że są daremne, może to sugerować jedna z nich. Tak, z pewnością rób to, jeśli czujesz się dobrze z mocnym oświadczeniem na temat sposobu uporządkowania danych - ale wróciliśmy do terytorium roszczenia (1) i roszczenia (2).α

2. Jaka jest intuicja i matematyka za elastyczną siatką?

Zdecydowanie polecam przeczytanie literatury na temat tych metod, poczynając od oryginalnego papieru na elastycznej siatce. Artykuł rozwija intuicję i matematykę i jest bardzo czytelny. Jego odtworzenie odbyłoby się ze szkodą dla wyjaśnień autorów. Ale podsumowaniem wysokiego poziomu jest to, że elastyczna siatka jest wypukłą sumą kar grzbietowych i lasso, więc funkcja celu dla modelu błędu Gaussa wygląda następująco:

Residual Mean Square Error+αRidge Penalty+(1α)LASSO Penalty

dlaα[0,1].

Hui Zou i Trevor Hastie. „ Regularyzacja i wybór zmiennych za pomocą elastycznej siatki .” Statystyka JR. Soc., Tom 67 (2005), część 2., str. 301–320.

Richard Hardy wskazuje, że jest to bardziej szczegółowo opisane w Hastie i in. „Elementy uczenia statystycznego” rozdziały 3 i 18.

3. Co jeśli dodasz dodatkowe normy ?Lq

Oto pytanie postawione mi w komentarzach:

Pozwól, że zasugeruję jeszcze jeden argument przeciwko twojemu punktowi widzenia, że ​​elastyczna siatka jest jednolicie lepsza niż sam lasso lub grzbiet. Wyobraź sobie, że dodajemy kolejną karę do elastycznej funkcji kosztu netto, np. Koszt , z hiperparametrem . Nie sądzę, aby było wiele badań na ten temat, ale założę się, że jeśli przeprowadzisz wyszukiwanie krzyżowe na siatce parametrów 3d, otrzymasz jako wartość optymalną. Jeśli tak, to czy argumentujesz, że zawsze dobrym pomysłem jest uwzględnienie również kosztu .L3γγ0L3

Rozumiem, że duch tego pytania brzmi: „Jeśli jest tak, jak twierdzisz, a dwie kary są dobre, dlaczego nie dodać kolejnej?” Ale myślę, że odpowiedź leży w tym, dlaczego przede wszystkim regularyzujemy.

L1nnL2pL2p>n

Pomijając jeden z tych problemów, normalizowany model może nadal przewyższać model ML, ponieważ właściwości skurczowe estymatorów są „pesymistyczne” i pociągają współczynniki w kierunku 0.

L3

L1L2

L1L2

L2L1L1L2

LqL1L2

Sycorax mówi Przywróć Monikę
źródło
4
Mówienie, że „elastyczna siatka jest zawsze preferowana nad regresją lasso i kalenicy” może być nieco zbyt silne. W małych lub średnich próbkach elastyczna siatka może nie wybrać czystego LASSO lub czystego roztworu kalenicy, nawet jeśli ten pierwszy lub drugi jest rzeczywiście odpowiedni. Biorąc pod uwagę wcześniejszą wiedzę, warto wybrać LASSO lub kalenicę zamiast elastycznej siatki. Jednak przy braku wcześniejszej wiedzy preferowanym rozwiązaniem powinna być siatka elastyczna.
Richard Hardy
4
α
7
γγ0
5
L1L2L3
3
„Możemy przetestować rozwiązania LASSO, kalenicy i elastycznych siatek i dokonać wyboru ostatecznego modelu” - możemy, ale oczywiście jest to nowa procedura, optymalizująca kryterium podlegające przypadkowemu błędowi, który może, ale nie musi, działać lepiej niż LASSo, regresja kalenicowa lub sama elastyczna siatka.
Scortchi - Przywróć Monikę
11

Generalnie zgadzam się z odpowiedzią @Sycorax, ale chciałbym dodać trochę kwalifikacji.

Mówienie, że „elastyczna siatka jest zawsze preferowana nad regresją lasso i kalenicy” może być nieco zbyt silne. W małych lub średnich próbkach elastyczna siatka może nie wybrać czystego LASSO lub czystego roztworu kalenicy, nawet jeśli ten pierwszy lub drugi jest rzeczywiście odpowiedni. Biorąc pod uwagę wcześniejszą wiedzę, warto wybrać LASSO lub kalenicę zamiast elastycznej siatki. Jednak przy braku wcześniejszej wiedzy preferowanym rozwiązaniem powinna być siatka elastyczna.

Ponadto elastyczna siatka jest obliczeniowo droższa niż LASSO lub kalenica, ponieważ względną wagę LASSO w porównaniu z kalenicą należy wybrać za pomocą walidacji krzyżowej. Jeżeli rozsądna siatka wartości alfa wynosi [0,1] przy wielkości kroku 0,1, oznacza to, że elastyczna siatka jest około 11 razy droższa obliczeniowo niż LASSO lub kalenica. (Ponieważ LASSO i grzbiet nie mają takiej samej złożoności obliczeniowej, wynik jest tylko wstępnym przypuszczeniem.)

Richard Hardy
źródło
1
Albo rzeczywiście LASSO lub regresja kalenicowa może nie dawać lepszej wydajności predykcyjnej w porównaniu z regresją niezenalizowaną.
Scortchi - Przywróć Monikę
4
Jaka wcześniejsza wiedza doprowadziłaby do preferowania Lassa, a jaka wcześniejsza wiedza skłoniłaby do preferowania grzbietu?
ameba mówi Przywróć Monikę
4
@amoeba, jeśli jest prawdopodobne, że wszystkie regresory są istotne, ale są wysoce skorelowane, to wybór zmiennych nie jest potrzebny i dlatego można preferować grzbiet. Z drugiej strony, jeśli niektóre regresory prawdopodobnie będą zupełnie nieistotne (ale po prostu nie wiemy, które z nich), wówczas potrzebny jest wybór zmiennej i LASSO może być preferowany. Ta wiedza zostałaby zaczerpnięta z dziedziny przedmiotu. Myślę, że może być kilka przykładów w Hastie i in. „Elementy uczenia statystycznego” lub w powiązanej literaturze po prostu nie pamiętam, gdzie to czytałem.
Richard Hardy
1
@kjetilbhalvorsen, dziękuję, to było pomocne.
Richard Hardy
1
@amoeba, grzbiet jest lepszy dla skorelowanych danych, gdzie L2 zachęca wiele małych wag (uśrednianie) w stosunku do danych wejściowych. klasycznym przykładem są powtarzane pomiary z niezależnym szumem (np. przetwarzanie sygnału lub np. wiele badań tego samego przedmiotu), podczas gdy l1 jest lepiej, gdy 1 var dominuje nad drugim, klasycznym przypadkiem są dane hierarchiczne: gdzie współczynniki należy szacować na najwyższym poziomie w hierarchii.
seanv507