W którym ustawieniu spodziewałbyś się, że model znaleziony przez LARS najbardziej różni się od modelu znalezionego przez wyczerpujące wyszukiwanie?

9

Trochę więcej informacji; Przypuszczam, że

  1. wiesz z góry, ile zmiennych wybrać i że ustawiasz karę złożoności w procedurze LARS, tak aby mieć dokładnie tyle zmiennych o współczynnikach innych niż 0,
  2. koszty obliczeń nie stanowią problemu (całkowita liczba zmiennych jest mała, powiedzmy 50),
  3. że wszystkie zmienne (y, x) są ciągłe.

W jakim ustawieniu model LARS (tj. Dopasowanie OLS tych zmiennych mających niezerowe współczynniki w dopasowaniu LARS) najbardziej różni się od modelu o tej samej liczbie współczynników, ale znaleziony w drodze wyczerpującego wyszukiwania (a la regsubsets ())?

Edycja: Używam 50 zmiennych i 250 obserwacji z rzeczywistymi współczynnikami wyciągniętymi ze standardowego gaussa, z wyjątkiem 10 zmiennych mających „rzeczywiste” współczynniki 0 (i wszystkie cechy są ze sobą silnie skorelowane). Te ustawienia oczywiście nie są dobre, ponieważ różnice między dwoma zestawami wybranych zmiennych są niewielkie. To jest naprawdę pytanie o to, jaki typ konfiguracji danych należy symulować, aby uzyskać jak najwięcej różnic.

użytkownik603
źródło

Odpowiedzi:

1

Oto opis algorytmu LARS: http://www-stat.stanford.edu/~tibs/lasso/simple.html To trochę ignoruje korelację między regresorami, więc zaryzykowałbym przypuszczenie, że może to przegapić dopasowanie w przypadku wielokoliniowości.

Alex
źródło
to właśnie motywuje moje pytanie. Symulowałem ustawienia z 50 zmiennymi, w których największa wartość vif przekracza 30 i nadal widzę bardzo niewiele różnic (na przykład pod względem R ^ 2 wybranych modeli) między tymi dwoma podejściami.
user603
1
Sam znalazłem różne odpowiedzi dla stepAIC i Larsa i wyobrażam sobie, że moim problemem należy się zająć grupą LASSO - nie chodzi tu o VIF całej macierzy, ale o szereg skupisk zmiennych skorelowanych.
Alex
Ciekawe ... jak generujesz takie dane? (tj. z klastrami zmiennych skorelowanych)
user603
Połącz kilka niezależnych grup z korelacją w ich obrębie. Ja sam mam kilka takich samych pytań dotyczących wielu marek - ludzie lubią wybraną przez siebie markę i nie lubią innych.
Alex
3

Im więcej funkcji masz w stosunku do liczby próbek, tym bardziej będziesz się przejmować bardziej wyczerpującą metodą wyszukiwania niż w przypadku LARS. Kara stosowana w LARS narzuca strukturę zagnieżdżoną coraz bardziej złożonych modeli, indeksowanych jednym parametrem regularyzacji, więc „stopień swobody” wyboru funkcji w LARS jest dość niski. W przypadku wyszukiwania exaustive istnieje efektywnie jeden (binarny) stopień swobody na cechę, co oznacza, że ​​wyszukiwanie exaustive jest w stanie lepiej wykorzystać losową zmienność w kryterium wyboru cechy ze względu na losowe próbkowanie danych. W rezultacie model egzekwowania wyszukiwania może zostać poważnie dostosowany do kryterium wyboru cech, ponieważ „klasa hipotez” jest większa.

Dikran Torbacz
źródło
Twoja odpowiedź wydaje się nie mieć związku z moim pytaniem. Żeby było jasne: jestem naprawdę zainteresowany tworzeniem sytuacji, w których podzbiór zmiennych wybranych jako aktywne przez LARS byłby najbardziej różny od tych wybranych przez wyczerpujące wyszukiwanie, przy czym mierzy się to, powiedzmy, różnicą w R ^ 2 między modelem LARS oraz wyczerpujący model wyszukiwania z tą samą liczbą aktywnych zmiennych . Czy potrafisz wymyślić jakiś przeciwnik, w którym różnica byłaby duża? Czy możesz ponownie sformułować swoją odpowiedź w tych warunkach?
user603
3
Moja odpowiedź jest bezpośrednio związana z twoim pytaniem. Stopień nadmiernego dopasowania nie zależy tylko od liczby cech, ale od wartości wag. W związku z tym możliwe jest nadmierne dopasowanie bez korzystania z większej liczby funkcji. LARS nakłada karę na wielkość odważników, więc nie wybiera funkcji, które zmniejszają tylko kwadratową stratę kosztem odważników o dużych rozmiarach, dlatego jest mniej podatny na nadmierne dopasowanie. Rozbudowane metody wyszukiwania są w zasadzie receptą na nadmierne dopasowanie, więc otrzymasz bardzo różne rozwiązania w sytuacjach, w których może wystąpić nadmierne dopasowanie.
Dikran Marsupial
Ok, rozumiem, o co ci chodzi: pochodzi z czegoś, o czym wspomniałem w moim pierwotnym pytaniu (i mam nadzieję, że wyjaśniłem to teraz). Naprawdę porównuję tutaj jabłko do jabłek (tj. Wybrane modele), lub innymi słowy, dopasowanie (R ^ 2 z) OLS za pomocą zmiennych wybranych przez LARS i dopasowanie (R ^ 2 z) OLS za pomocą tych zmienne wybrane przez wyczerpujące wyszukiwanie. Nie używam bezpośrednio współczynników LARS ....
user603
3
To nie jest ortogonalny, jeden model raczej nie będzie lepszy od drugiego bez różnicy. W sytuacjach, w których prawdopodobne jest nadmierne dopasowanie, model oparty na wyszukanym wyszukiwaniu może być niestabilny, tj. Jeśli zbierzesz 500 różnych próbek, prawdopodobnie uzyskasz inny zestaw funkcji. Z drugiej strony LARS prawdopodobnie będzie bardziej stabilny. To, czy 50 cech i 500 próbek może doprowadzić do nadmiernego dopasowania, zależy od charakteru zestawu danych, ale z pewnością jest to możliwe. Wyczerpujące wyszukiwanie może wybrać funkcje wyjaśniające zmienność charakterystyczną dla tej próbki; LARS mniej.
Dikran Torbacz
2
Pomocne może być wyjaśnienie, dlaczego chcesz to zrobić. Podejrzewam, że należy spojrzeć na wielkości wag prawdziwego modelu, a także na rozkład danych. Modele regresji karnej (LASSO, LARS, sieć Elaris, regresja kalenicy) mają pierwszeństwo w oczekiwanym rozkładzie ciężarów, więc jeśli masz zestaw danych, w którym jest to nieprawidłowe, może to być dobre miejsce na rozpoczęcie.
Dikran Torbacz