Trochę więcej informacji; Przypuszczam, że
- wiesz z góry, ile zmiennych wybrać i że ustawiasz karę złożoności w procedurze LARS, tak aby mieć dokładnie tyle zmiennych o współczynnikach innych niż 0,
- koszty obliczeń nie stanowią problemu (całkowita liczba zmiennych jest mała, powiedzmy 50),
- że wszystkie zmienne (y, x) są ciągłe.
W jakim ustawieniu model LARS (tj. Dopasowanie OLS tych zmiennych mających niezerowe współczynniki w dopasowaniu LARS) najbardziej różni się od modelu o tej samej liczbie współczynników, ale znaleziony w drodze wyczerpującego wyszukiwania (a la regsubsets ())?
Edycja: Używam 50 zmiennych i 250 obserwacji z rzeczywistymi współczynnikami wyciągniętymi ze standardowego gaussa, z wyjątkiem 10 zmiennych mających „rzeczywiste” współczynniki 0 (i wszystkie cechy są ze sobą silnie skorelowane). Te ustawienia oczywiście nie są dobre, ponieważ różnice między dwoma zestawami wybranych zmiennych są niewielkie. To jest naprawdę pytanie o to, jaki typ konfiguracji danych należy symulować, aby uzyskać jak najwięcej różnic.
źródło
Im więcej funkcji masz w stosunku do liczby próbek, tym bardziej będziesz się przejmować bardziej wyczerpującą metodą wyszukiwania niż w przypadku LARS. Kara stosowana w LARS narzuca strukturę zagnieżdżoną coraz bardziej złożonych modeli, indeksowanych jednym parametrem regularyzacji, więc „stopień swobody” wyboru funkcji w LARS jest dość niski. W przypadku wyszukiwania exaustive istnieje efektywnie jeden (binarny) stopień swobody na cechę, co oznacza, że wyszukiwanie exaustive jest w stanie lepiej wykorzystać losową zmienność w kryterium wyboru cechy ze względu na losowe próbkowanie danych. W rezultacie model egzekwowania wyszukiwania może zostać poważnie dostosowany do kryterium wyboru cech, ponieważ „klasa hipotez” jest większa.
źródło