Jak LASSO wybiera spośród predyktorów współliniowych?

11

Szukam intuicyjnej odpowiedzi, dlaczego model GLM LASSO wybiera określony predyktor z grupy wysoce skorelowanych i dlaczego robi to inaczej niż najlepszy wybór funkcji podzbioru.

Z geometrii LASSO pokazanej na ryc. 2 w Tibshirani 1996 doprowadzono mnie do przekonania, że ​​LASSO wybiera predyktor z większą wariancją.

Załóżmy teraz, że używam najlepszej selekcji podzbiorów z 10-krotnym CV, aby uzyskać 2 predyktory dla modelu regresji logistycznej i mam wystarczającą wcześniejszą wiedzę, że te 2 predyktory są optymalne (w sensie straty 0-1).

Rozwiązanie LASSO preferuje mniej oszczędne (5 predyktorów) rozwiązanie z większym błędem predykcji. Intuicyjnie, co powoduje powstanie różnicy? Czy to z powodu sposobu, w jaki LASSO wybiera spośród skorelowanych predyktorów?

Piotr Sokol
źródło

Odpowiedzi:

5

LASSO różni się od wyboru najlepszych podzbiorów pod względem kary i zależności od ścieżki.

W selekcji najlepszych podzbiorów przypuszczalnie zastosowano CV, aby zidentyfikować, że 2 predyktory dały najlepszą wydajność. Podczas CV do oceny, ile zmiennych należy uwzględnić, zastosowano współczynniki regresji pełnej wielkości bez kary. Po podjęciu decyzji o użyciu 2 predyktorów, wszystkie kombinacje 2 predyktorów zostaną porównane na pełnym zbiorze danych, równolegle, aby znaleźć 2 dla ostatecznego modelu. Te dwa ostateczne predyktory otrzymałyby współczynniki regresji pełnej wielkości, bez kary, tak jakby były jedynymi wyborami przez cały czas.

Możesz myśleć o LASSO jako zaczynającym się od dużej kary na sumę wielkości współczynników regresji, przy czym kara stopniowo się rozluźnia. W rezultacie zmienne wprowadzane są pojedynczo, z decyzją podejmowaną w każdym punkcie podczas relaksacji, czy bardziej wartościowe jest zwiększenie współczynników zmiennych już w modelu, czy dodanie innej zmiennej. Ale gdy dojdziemy do, powiedzmy, modelu z dwiema zmiennymi, współczynniki regresji dozwolone przez LASSO będą niższe pod względem wielkości niż te same zmienne, jakie miałyby w standardowych regresjach bez kary stosowanych do porównywania modeli 2-zmiennych i 3-zmiennych w wybór najlepszego podzbioru.

Można to uznać za ułatwiające wprowadzanie nowych zmiennych w LASSO niż w wyborze najlepszych podzbiorów. Heurystycznie LASSO wymienia potencjalnie niższe niż rzeczywiste współczynniki regresji z niepewnością co do liczby zmiennych, które należy uwzględnić. Powodowałoby to tendencję do włączania większej liczby zmiennych do modelu LASSO i potencjalnie gorszej wydajności dla LASSO, gdybyś wiedział na pewno, że należy uwzględnić tylko 2 zmienne. Ale jeśli już wiesz, ile zmiennych predykcyjnych powinno być zawartych we właściwym modelu, prawdopodobnie nie użyłbyś LASSO.

Do tej pory nic nie zależało od kolinearności, która prowadzi różne typy arbitralności w selekcji zmiennych w najlepszym podzbiorze w porównaniu z LASSO. W tym przykładzie najlepszy podzbiór zbadał wszystkie możliwe kombinacje 2 predyktorów i wybrał najlepszy spośród tych kombinacji. Tak więc najlepsze 2 dla tej konkretnej próbki danych wygrywają.

LASSO, ze swoją zależnością ścieżki w dodawaniu jednej zmiennej na raz, oznacza, że ​​wczesny wybór jednej zmiennej może mieć wpływ, gdy inne zmienne skorelowane wejdą później w procesie relaksacji. Możliwe jest również, że zmienna wejdzie wcześniej, a następnie jej współczynnik LASSO spadnie wraz z wejściem innych zmiennych skorelowanych.

W praktyce wybór spośród skorelowanych predyktorów w modelach końcowych w obu metodach jest w dużym stopniu zależny od próby, co można sprawdzić, powtarzając te procesy budowania modelu na próbkach bootstrap tych samych danych. Jeśli nie ma zbyt wielu predyktorów, a twoim głównym zainteresowaniem jest przewidywanie nowych zestawów danych, regresja kalenicy, która zwykle zachowuje wszystkie predyktory, może być lepszym wyborem.

EdM
źródło