Dlaczego najlepszy wybór podzbiorów nie jest preferowany w porównaniu z lasso?

13

Czytam o najlepszym wyborze podzbiorów w książce Elementy statystycznego uczenia się. Jeśli mam 3 predyktory , tworzę podzbiorów:2 3 = 8x1,x2,x323=8

  1. Podzbiór bez predyktorów
  2. podzbiór z predyktoremx1
  3. podzbiór z predyktoremx2
  4. podzbiór z predyktoremx3
  5. podzbiór z predyktoramix1,x2
  6. podzbiór z predyktoramix1,x3
  7. podzbiór z predyktoramix2,x3
  8. podzbiór z predyktoramix1,x2,x3

Następnie testuję wszystkie te modele na danych testowych, aby wybrać najlepszy.

Teraz moje pytanie brzmi: dlaczego najlepszy wybór podzbiorów nie jest preferowany w porównaniu np. Z lasso?

Jeśli porównam funkcje progowe najlepszego podzbioru i lasso, zobaczę, że najlepszy podzbiór ustawia niektóre współczynniki na zero, jak lasso. Ale inny współczynnik (niezerowy) nadal będzie miał wartości ols, nie będą one rozłożone. Podczas gdy w lasso niektóre współczynniki będą wynosić zero, a inne (niezerowe) będą miały pewne odchylenie. Poniższy rysunek pokazuje to lepiej: wprowadź opis zdjęcia tutaj

Na zdjęciu część czerwonej linii w najlepszym przypadku podzbioru leży na szarej. Druga część leży na osi X, gdzie niektóre współczynniki wynoszą zero. Szara linia określa obiektywne rozwiązania. W lasso niektóre uprzedzenia wprowadza . Z tej figury widzę, że najlepszy podzbiór jest lepszy niż lasso! Jakie są wady korzystania z najlepszego podzbioru?λ

Ville
źródło
1
.. i jak wyglądają krzywe, gdy losowość danych powoduje wybranie jednego z wielu niewłaściwych podzbiorów, a powiązane szacunki współczynników są dalekie od zera w stosunku do ich standardowych błędów?
jbowman
2
@ jbowman Nie rozumiem tego bardzo wyraźnie, dlaczego losowość danych zmusiłaby mnie do wybrania niewłaściwej? Gdybym użył walidacji krzyżowej, aby wybrać najlepszy podzbiór, miałbym mniejsze szanse na wybranie niewłaściwego podzbioru.
Ville,
1
Wygląda na to, że utożsamiasz „mniej stronniczości” z „lepszym”. Co sprawia, że ​​przykładasz tak dużą wagę do bezstronności?
Matthew Drury

Odpowiedzi:

16

Przy wyborze podzbioru niezerowe parametry będą bezstronne tylko wtedy, gdy wybrałeś nadzbiór poprawnego modelu, tj. Jeśli usunąłeś tylko predyktory, których prawdziwe wartości współczynników wynoszą zero. Jeśli procedura wyboru doprowadziła do wykluczenia predyktora z prawdziwym niezerowym współczynnikiem, wszystkie szacunki współczynników będą tendencyjne. To przeczy twojemu argumentowi, jeśli zgodzisz się, że wybór zwykle nie jest doskonały.

Dlatego, aby „upewnić się” o bezstronnym oszacowaniu modelu, powinieneś popełnić błąd po stronie większej lub nawet wszystkich potencjalnie istotnych predyktorów. Oznacza to, że nie powinieneś w ogóle wybierać.

Dlaczego to zły pomysł? Ze względu na kompromis wariancji odchylenia. Tak, twój duży model będzie bezstronny, ale będzie miał dużą wariancję, a wariancja zdominuje błąd prognozy (lub innego).

Dlatego lepiej jest zaakceptować, że oszacowania parametrów będą tendencyjne, ale będą miały mniejszą wariancję (regularyzację), niż mieć nadzieję, że nasz wybór podzbiorów usunął tylko parametry zera rzeczywistego, więc mamy obiektywny model z większą wariancją.

Ponieważ piszesz, że oceniasz oba podejścia przy użyciu weryfikacji krzyżowej, łagodzi to niektóre z powyższych obaw. Pozostaje jeszcze jeden problem dla najlepszego podzbioru: ogranicza niektóre parametry do dokładnie zero i pozwala innym swobodnie się unosić. Zatem w oszacowaniu występuje nieciągłość, której nie ma, jeśli lasso poza punkt którym predyktor jest włączony lub wyłączony. Załóżmy, że walidacja krzyżowa wyprowadza „optymalną” zbliżoną do , więc zasadniczo nie jesteśmy pewni, czy p powinno zostać uwzględnione. W takim przypadku argumentowałbym, że bardziej sensowne jest ograniczenie parametru oszacowanieX 0 t X X 0 β s β p = 0 β p = β OLS strλλ0pλλ0β^ppoprzez lasso do małej (absolutnej) wartości, zamiast albo całkowicie ją wykluczyć, , albo pozwól jej swobodnie unosić się, , podobnie jak najlepszy podzbiór.β^p=0β^p=β^pOLS

Może to być pomocne: Dlaczego skurcz działa?

Stephan Kolassa
źródło
Hmm Nie sądzę, że to odpowiada, dlaczego najlepszy podzbiór jest gorszy niż lasso (co jest głównym pytaniem tutaj).
ameba mówi Przywróć Monikę
@amoeba: czy chciałbyś to rozwinąć?
Stephan Kolassa
Cóż, zrozumiałem pytanie jako pytanie, dlaczego lasso jest preferowane zamiast najlepszego podzbioru. Wyobraźmy sobie, że umieszczamy obie w pętli weryfikacji krzyżowej, a następnie albo dostrajamy parametr lasso, albo znajdujemy najlepszy podzbiór. Lasso jest zwykle zalecane. Zrozumiałem pytanie jako pytanie: dlaczego? (patrz np. tytuł pytania) i nie jestem pewien, czy twoja odpowiedź faktycznie na to odpowiada. A może źle zrozumiałem twoją odpowiedź?
ameba mówi Przywróć Monikę
1
Pozostałym problemem dla najlepszego podzbioru jest to, że ogranicza on niektóre parametry do dokładnie zerowego i pozwala innym swobodnie unosić się, więc istnieje szacunek nieciągłości, którego nie ma, jeśli lasso poza punkt gdzie predyktor jest włączony lub wyłączony. Argumentowałbym, że jeśli zasadniczo nie jesteśmy pewni, czy należy uwzględnić , ponieważ , wówczas bardziej sensowne jest ograniczenie oszacowania parametru przez lasso, zamiast pozwolić unosi się swobodnie. X 0 s s X X 0 β strλλ0ppλλ0β^p
Stephan Kolassa
1
Zgadzam się, że ta odpowiedź tak naprawdę nie odpowiada na pytanie - dodałem swoje
zdanie
11

Zasadniczo, jeśli można znaleźć najlepszy podzbiór, jest on rzeczywiście lepszy niż LASSO, pod względem (1) wybrania zmiennych, które faktycznie przyczyniają się do dopasowania, (2) nie wybrania zmiennych, które nie przyczyniają się do dopasowania, (3) dokładność prognoz i (4) generowanie zasadniczo obiektywnych oszacowań dla wybranych zmiennych. Jeden z ostatnich artykułów, który opowiadał się za lepszą jakością najlepszego podzbioru w porównaniu z LASSO, to autorstwa Bertsimasa i in. (2016) „Najlepszy wybór podzbiorów dzięki nowoczesnej soczewce optymalizacyjnej” . Kolejny starszy, podający konkretny przykład (dotyczący dekonwolucji pociągów kolczastych), w którym najlepszy podzbiór był lepszy niż LASSO lub grzbiet, to autorstwa de Rooi & Eilers (2011).

Powodem, dla którego LASSO jest nadal preferowany w praktyce, jest głównie fakt, że jest on znacznie łatwiejszy do obliczenia. Najlepszy wybór podzbiorów, tj. Zastosowanie kary L_0, jest zasadniczo problemem kombinatorycznym i jest NP trudny, podczas gdy rozwiązanie LASSO można łatwo obliczyć na ścieżce regularyzacji, stosując ścieżkę opadania współrzędnych. Ponadto LASSO ( penalizowana normy ) jest wypukłym rozluźnieniem karnej L_0 / wybór najlepszego podzbioru (regresja mostkowa, tzn. norma z q bliską 0 w zasadzie byłaby bliższa doborowi najlepszych podzbiorów niż LASSO , ale nie jest to już problem wypukłej optymalizacji, więc dopasowanie jej jest dość trudneL 1 L 0 L qL0L1L0Lq).

Aby zmniejszyć stronniczość LASSO, można zastosować pochodne podejścia wieloetapowe, takie jak adaptacyjne LASSO (gdzie współczynniki są różnie karane w oparciu o wcześniejsze oszacowanie z dopasowania najmniejszych kwadratów lub regresji grzbietu) lub zrelaksowane LASSO (prostym rozwiązaniem jest zrobienie dopasowanie najmniejszych kwadratów dla zmiennych wybranych przez LASSO). W porównaniu z najlepszym podzbiorem LASSO ma jednak tendencję do wybierania nieco zbyt wielu zmiennych. Najlepszy wybór podzbiorów jest lepszy, ale trudniejszy do dopasowania.

L0zapewnia obszerne porównanie najlepszego podzbioru, LASSO i niektórych wariantów LASSO, takich jak zrelaksowany LASSO, i twierdzą, że zrelaksowany LASSO był tym, który zapewnił najwyższą dokładność prognozowania modelu w najszerszym zakresie okoliczności, tj. doszli do innego wniosku niż Bertsimas. Ale wniosek, który jest najlepszy, zależy w dużej mierze od tego, co uważasz za najlepsze (np. Najwyższa dokładność przewidywania lub najlepiej w doborze odpowiednich zmiennych, a nie w tym nieistotnych; regresja grzbietu np. Zazwyczaj wybiera zdecydowanie zbyt wiele zmiennych, ale dokładność przewidywania dla przypadków z bardzo zmienne współliniowe mogą być jednak naprawdę dobre).

W przypadku bardzo małego problemu z 3 zmiennymi, takimi jak opisujesz, jest oczywiste, że najlepszym wyborem jest wybór podzbioru.

Tom Wenseleers
źródło
1
Co oznacza „lepszy” w zdaniu „jest lepszy niż lasso”?
Matthew Drury
1
kλkkk
Zmodyfikowałem nieco moją odpowiedź, aby podać więcej szczegółów ...
Tom Wenseleers,
Nie wydaje mi się, aby którakolwiek z odpowiedzi dotyczyła problemu stabilności. Podobnie jak regresja krokowa i wszystkie możliwe podzbiory, lassojest notorycznie niestabilna. Innymi słowy, jeśli chcesz uruchomić cały proces, znajdziesz zbyt wiele arbitralności na liście wybranych funkcji.
Frank Harrell,
Tak, zmienne wybrane przez LASSO mogą być niestabilne, a tym bardziej jest tak w przypadku najlepszej regresji podzbioru - regresja elastyczna jest nieco lepsza pod tym względem - która zwykle obejmuje wtedy zbyt wiele zmiennych, ale jest wybierana w bardziej stabilny sposób i może zapewnić lepszą dokładność prognozowania przy wysokiej kolinearności. Ale wiele zależy od tego, co jest najważniejszym kryterium dla twojej aplikacji - dokładności prognoz, fałszywie dodatniego wskaźnika uwzględnienia zmiennych nieistotnych lub fałszywie ujemnego wskaźnika nieuwzględnienia zmiennych wysoce istotnych ...
Tom Wenseleers