LASSO różni się od wyboru najlepszych podzbiorów pod względem kary i zależności od ścieżki.
W selekcji najlepszych podzbiorów przypuszczalnie zastosowano CV, aby zidentyfikować, że 2 predyktory dały najlepszą wydajność. Podczas CV do oceny, ile zmiennych należy uwzględnić, zastosowano współczynniki regresji pełnej wielkości bez kary. Po podjęciu decyzji o użyciu 2 predyktorów, wszystkie kombinacje 2 predyktorów zostaną porównane na pełnym zbiorze danych, równolegle, aby znaleźć 2 dla ostatecznego modelu. Te dwa ostateczne predyktory otrzymałyby współczynniki regresji pełnej wielkości, bez kary, tak jakby były jedynymi wyborami przez cały czas.
Możesz myśleć o LASSO jako zaczynającym się od dużej kary na sumę wielkości współczynników regresji, przy czym kara stopniowo się rozluźnia. W rezultacie zmienne wprowadzane są pojedynczo, z decyzją podejmowaną w każdym punkcie podczas relaksacji, czy bardziej wartościowe jest zwiększenie współczynników zmiennych już w modelu, czy dodanie innej zmiennej. Ale gdy dojdziemy do, powiedzmy, modelu z dwiema zmiennymi, współczynniki regresji dozwolone przez LASSO będą niższe pod względem wielkości niż te same zmienne, jakie miałyby w standardowych regresjach bez kary stosowanych do porównywania modeli 2-zmiennych i 3-zmiennych w wybór najlepszego podzbioru.
Można to uznać za ułatwiające wprowadzanie nowych zmiennych w LASSO niż w wyborze najlepszych podzbiorów. Heurystycznie LASSO wymienia potencjalnie niższe niż rzeczywiste współczynniki regresji z niepewnością co do liczby zmiennych, które należy uwzględnić. Powodowałoby to tendencję do włączania większej liczby zmiennych do modelu LASSO i potencjalnie gorszej wydajności dla LASSO, gdybyś wiedział na pewno, że należy uwzględnić tylko 2 zmienne. Ale jeśli już wiesz, ile zmiennych predykcyjnych powinno być zawartych we właściwym modelu, prawdopodobnie nie użyłbyś LASSO.
Do tej pory nic nie zależało od kolinearności, która prowadzi różne typy arbitralności w selekcji zmiennych w najlepszym podzbiorze w porównaniu z LASSO. W tym przykładzie najlepszy podzbiór zbadał wszystkie możliwe kombinacje 2 predyktorów i wybrał najlepszy spośród tych kombinacji. Tak więc najlepsze 2 dla tej konkretnej próbki danych wygrywają.
LASSO, ze swoją zależnością ścieżki w dodawaniu jednej zmiennej na raz, oznacza, że wczesny wybór jednej zmiennej może mieć wpływ, gdy inne zmienne skorelowane wejdą później w procesie relaksacji. Możliwe jest również, że zmienna wejdzie wcześniej, a następnie jej współczynnik LASSO spadnie wraz z wejściem innych zmiennych skorelowanych.
W praktyce wybór spośród skorelowanych predyktorów w modelach końcowych w obu metodach jest w dużym stopniu zależny od próby, co można sprawdzić, powtarzając te procesy budowania modelu na próbkach bootstrap tych samych danych. Jeśli nie ma zbyt wielu predyktorów, a twoim głównym zainteresowaniem jest przewidywanie nowych zestawów danych, regresja kalenicy, która zwykle zachowuje wszystkie predyktory, może być lepszym wyborem.