Czytam o najlepszym wyborze podzbiorów w książce Elementy statystycznego uczenia się. Jeśli mam 3 predyktory , tworzę podzbiorów:2 3 = 8
- Podzbiór bez predyktorów
- podzbiór z predyktorem
- podzbiór z predyktorem
- podzbiór z predyktorem
- podzbiór z predyktorami
- podzbiór z predyktorami
- podzbiór z predyktorami
- podzbiór z predyktorami
Następnie testuję wszystkie te modele na danych testowych, aby wybrać najlepszy.
Teraz moje pytanie brzmi: dlaczego najlepszy wybór podzbiorów nie jest preferowany w porównaniu np. Z lasso?
Jeśli porównam funkcje progowe najlepszego podzbioru i lasso, zobaczę, że najlepszy podzbiór ustawia niektóre współczynniki na zero, jak lasso. Ale inny współczynnik (niezerowy) nadal będzie miał wartości ols, nie będą one rozłożone. Podczas gdy w lasso niektóre współczynniki będą wynosić zero, a inne (niezerowe) będą miały pewne odchylenie. Poniższy rysunek pokazuje to lepiej:
Na zdjęciu część czerwonej linii w najlepszym przypadku podzbioru leży na szarej. Druga część leży na osi X, gdzie niektóre współczynniki wynoszą zero. Szara linia określa obiektywne rozwiązania. W lasso niektóre uprzedzenia wprowadza . Z tej figury widzę, że najlepszy podzbiór jest lepszy niż lasso! Jakie są wady korzystania z najlepszego podzbioru?
Odpowiedzi:
Przy wyborze podzbioru niezerowe parametry będą bezstronne tylko wtedy, gdy wybrałeś nadzbiór poprawnego modelu, tj. Jeśli usunąłeś tylko predyktory, których prawdziwe wartości współczynników wynoszą zero. Jeśli procedura wyboru doprowadziła do wykluczenia predyktora z prawdziwym niezerowym współczynnikiem, wszystkie szacunki współczynników będą tendencyjne. To przeczy twojemu argumentowi, jeśli zgodzisz się, że wybór zwykle nie jest doskonały.
Dlatego, aby „upewnić się” o bezstronnym oszacowaniu modelu, powinieneś popełnić błąd po stronie większej lub nawet wszystkich potencjalnie istotnych predyktorów. Oznacza to, że nie powinieneś w ogóle wybierać.
Dlaczego to zły pomysł? Ze względu na kompromis wariancji odchylenia. Tak, twój duży model będzie bezstronny, ale będzie miał dużą wariancję, a wariancja zdominuje błąd prognozy (lub innego).
Dlatego lepiej jest zaakceptować, że oszacowania parametrów będą tendencyjne, ale będą miały mniejszą wariancję (regularyzację), niż mieć nadzieję, że nasz wybór podzbiorów usunął tylko parametry zera rzeczywistego, więc mamy obiektywny model z większą wariancją.
Ponieważ piszesz, że oceniasz oba podejścia przy użyciu weryfikacji krzyżowej, łagodzi to niektóre z powyższych obaw. Pozostaje jeszcze jeden problem dla najlepszego podzbioru: ogranicza niektóre parametry do dokładnie zero i pozwala innym swobodnie się unosić. Zatem w oszacowaniu występuje nieciągłość, której nie ma, jeśli lasso poza punkt którym predyktor jest włączony lub wyłączony. Załóżmy, że walidacja krzyżowa wyprowadza „optymalną” zbliżoną do , więc zasadniczo nie jesteśmy pewni, czy p powinno zostać uwzględnione. W takim przypadku argumentowałbym, że bardziej sensowne jest ograniczenie parametru oszacowanieX 0 t X X 0 β s β p = 0 β p = β OLS strλ λ0 p λ λ0 β^p poprzez lasso do małej (absolutnej) wartości, zamiast albo całkowicie ją wykluczyć, , albo pozwól jej swobodnie unosić się, , podobnie jak najlepszy podzbiór.β^p=0 β^p=β^OLSp
Może to być pomocne: Dlaczego skurcz działa?
źródło
Zasadniczo, jeśli można znaleźć najlepszy podzbiór, jest on rzeczywiście lepszy niż LASSO, pod względem (1) wybrania zmiennych, które faktycznie przyczyniają się do dopasowania, (2) nie wybrania zmiennych, które nie przyczyniają się do dopasowania, (3) dokładność prognoz i (4) generowanie zasadniczo obiektywnych oszacowań dla wybranych zmiennych. Jeden z ostatnich artykułów, który opowiadał się za lepszą jakością najlepszego podzbioru w porównaniu z LASSO, to autorstwa Bertsimasa i in. (2016) „Najlepszy wybór podzbiorów dzięki nowoczesnej soczewce optymalizacyjnej” . Kolejny starszy, podający konkretny przykład (dotyczący dekonwolucji pociągów kolczastych), w którym najlepszy podzbiór był lepszy niż LASSO lub grzbiet, to autorstwa de Rooi & Eilers (2011).
Powodem, dla którego LASSO jest nadal preferowany w praktyce, jest głównie fakt, że jest on znacznie łatwiejszy do obliczenia. Najlepszy wybór podzbiorów, tj. Zastosowanie kary L_0, jest zasadniczo problemem kombinatorycznym i jest NP trudny, podczas gdy rozwiązanie LASSO można łatwo obliczyć na ścieżce regularyzacji, stosując ścieżkę opadania współrzędnych. Ponadto LASSO ( penalizowana normy ) jest wypukłym rozluźnieniem karnej L_0 / wybór najlepszego podzbioru (regresja mostkowa, tzn. norma z q bliską 0 w zasadzie byłaby bliższa doborowi najlepszych podzbiorów niż LASSO , ale nie jest to już problem wypukłej optymalizacji, więc dopasowanie jej jest dość trudneL 1 L 0 L qL0 L1 L0 Lq ).
Aby zmniejszyć stronniczość LASSO, można zastosować pochodne podejścia wieloetapowe, takie jak adaptacyjne LASSO (gdzie współczynniki są różnie karane w oparciu o wcześniejsze oszacowanie z dopasowania najmniejszych kwadratów lub regresji grzbietu) lub zrelaksowane LASSO (prostym rozwiązaniem jest zrobienie dopasowanie najmniejszych kwadratów dla zmiennych wybranych przez LASSO). W porównaniu z najlepszym podzbiorem LASSO ma jednak tendencję do wybierania nieco zbyt wielu zmiennych. Najlepszy wybór podzbiorów jest lepszy, ale trudniejszy do dopasowania.
W przypadku bardzo małego problemu z 3 zmiennymi, takimi jak opisujesz, jest oczywiste, że najlepszym wyborem jest wybór podzbioru.
źródło
lasso
jest notorycznie niestabilna. Innymi słowy, jeśli chcesz uruchomić cały proces, znajdziesz zbyt wiele arbitralności na liście wybranych funkcji.