Jak sensowne jest wykonywanie OLS po wyborze zmiennej LASSO?

20

Ostatnio odkryłem, że w stosowanej literaturze ekonometrycznej, gdy mamy do czynienia z problemami wyboru cech, nierzadko wykonuje się LASSO, a następnie regresję OLS przy użyciu wybranych zmiennych.

Zastanawiałem się, jak możemy zakwalifikować ważność takiej procedury. Czy spowoduje to problemy takie jak pominięte zmienne? Jakieś dowody wskazujące, że jest on bardziej wydajny lub wyniki są bardziej zrozumiałe?

Oto kilka powiązanych dyskusji:

Zmienny wybór za pomocą LASSO

Korzystanie z drzew po wyborze zmiennych za pomocą Lasso / Random

Jeśli, jak wskazano, taka procedura nie jest ogólnie poprawna, to dlaczego wciąż jest tak wielu badaczy? Czy mogę powiedzieć, że jest to tylko ogólna zasada, rozwiązanie kompromisowe, z powodu niektórych niełatwych właściwości estymatora LASSO i zamiłowania ludzi do OLS?

ZLIU
źródło
Czy możesz wyjaśnić, co to znaczy „regresja OLS” po wykonaniu LASSO? Co konkretnie ten krok OLS próbuje oszacować, że LASSO nie oszacował?
whuber
2
Istnieje kilka ostatnich dokumentów roboczych na ten temat. Wydaje się, że wielu wymaga założenia, że ​​zestaw prawidłowych zmiennych jest rzadki. Jeśli to założenie się nie powiedzie, wówczas tak, pomijane zmienne tak będą obecne. A ludzie lubią ols, ponieważ chcą interpretować cefy jako obiektywne z marginalnych efektów próbki. Ekonometria utknęła w tym paradygmacie.
generic_user
4
W tym ostatnim LASSO książki (free on-line), sekcja 11.4 wydaje się rozwiązać ten problem. Nie przeczytałem tego szczegółowo, ale wstęp kończy się stwierdzeniem „Biorąc pod uwagę [szacunek LASSO] który poprawnie odzyskuje wsparcie dla , możemy bardzo dobrze oszacować ... po prostu wykonując zwykłą regresję najmniejszych kwadratów ograniczoną do tego podzbioru ”. β*β*β^ββ
GeoMatt22,

Odpowiedzi:

12

Kilka dni temu było podobne pytanie, które zawierało odpowiednie odniesienie:

  • Belloni, A., Chernozhukov, V. i Hansen, C. (2014) „Wnioskowanie na temat efektów leczenia po selekcji wśród kontroli wysokowymiarowych”, Review of Economic Studies, 81 (2), s. 608-50 ( link )

Przynajmniej dla mnie ten artykuł jest dość trudny do przeczytania, ponieważ dowody tego stosunkowo prostego są dość skomplikowane. Gdy jesteś zainteresowany oszacowaniem modelu takiego jak

yja=αT.ja+Xjaβ+ϵja

gdzie jest twoim wynikiem, T i jest pewnym interesującym efektem leczenia, a X i jest wektorem potencjalnych kontroli. Docelowym parametrem jest α . Zakładając, że większość zmian w wyniku jest wyjaśniona przez leczenie i rzadki zestaw kontroli, Belloni i in. (2014) opracowali podwójnie niezawodną metodę selekcji, która zapewnia prawidłowe szacunki punktowe i prawidłowe przedziały ufności. To założenie rzadkości jest jednak ważne.yjaT.jaXjaα

Xjayja

  1. yjaXja
  2. T.jaXja
  3. yjaT.ja

Dostarczają dowody potwierdzające, dlaczego to działa i dlaczego otrzymujesz prawidłowe przedziały ufności itp. Z tej metody. Pokazują również, że jeśli wykonasz selekcję LASSO tylko na powyższej regresji, a następnie cofniesz wynik leczenia i wybrane zmienne, otrzymasz błędne oceny punktowe i przedziały fałszywego zaufania, jak już powiedział Björn.

Cel ten jest dwojaki: porównanie początkowego modelu, w którym wybór zmiennych kierowany był intuicją lub teorią, z modelem podwójnie niezawodnym, daje wyobrażenie o tym, jak dobry był twój pierwszy model. Być może twój pierwszy model zapomniał o niektórych ważnych kwadratach lub terminach interakcji, przez co cierpi z powodu źle określonej formy funkcjonalnej lub pominiętych zmiennych. Po drugie, Belloni i in. (2014) metoda może poprawić wnioskowanie na temat parametru docelowego, ponieważ nadmiarowe regresory zostały ukarane w swojej procedurze.

Andy
źródło
„Prawidłowe” oszacowania punktowe?
Richard Hardy
3

Przeprowadzenie selekcji zmiennych, a następnie ponowne uruchomienie odpowiedzi, tak jakby nie doszło do selekcji zmiennych, a wybrany model miał być zamierzony od samego początku, zwykle prowadzi do przesadzonych rozmiarów efektów, nieprawidłowych wartości p i przedziałów ufności z zakresem poniżej wartości nominalnej. Być może, jeśli wielkość próbki jest bardzo duża i istnieje kilka ogromnych efektów i wiele efektów zerowych, LASSO + OLS może nie być tak bardzo dotknięty, ale poza tym nie widzę żadnego uzasadnionego uzasadnienia, aw tym przypadku LASSO szacunki też powinny być w porządku.

Björn
źródło
1
Ale dlaczego drugi model zaczyna się od zera, jakby nie dokonano wyboru zmiennych? Czy LASSO nie wybiera zmiennej objaśniającej o najlepszej mocy predykcyjnej? BTW Pomyślałem, że mogę ponownie wprowadzić zmienną macierz LASSO do zmiennej glm. Teraz zrozumiałem, że LASSO per se jest regresją.
SIslam