Ostatnio odkryłem, że w stosowanej literaturze ekonometrycznej, gdy mamy do czynienia z problemami wyboru cech, nierzadko wykonuje się LASSO, a następnie regresję OLS przy użyciu wybranych zmiennych.
Zastanawiałem się, jak możemy zakwalifikować ważność takiej procedury. Czy spowoduje to problemy takie jak pominięte zmienne? Jakieś dowody wskazujące, że jest on bardziej wydajny lub wyniki są bardziej zrozumiałe?
Oto kilka powiązanych dyskusji:
Korzystanie z drzew po wyborze zmiennych za pomocą Lasso / Random
Jeśli, jak wskazano, taka procedura nie jest ogólnie poprawna, to dlaczego wciąż jest tak wielu badaczy? Czy mogę powiedzieć, że jest to tylko ogólna zasada, rozwiązanie kompromisowe, z powodu niektórych niełatwych właściwości estymatora LASSO i zamiłowania ludzi do OLS?
Odpowiedzi:
Kilka dni temu było podobne pytanie, które zawierało odpowiednie odniesienie:
Przynajmniej dla mnie ten artykuł jest dość trudny do przeczytania, ponieważ dowody tego stosunkowo prostego są dość skomplikowane. Gdy jesteś zainteresowany oszacowaniem modelu takiego jak
gdzie jest twoim wynikiem, T i jest pewnym interesującym efektem leczenia, a X i jest wektorem potencjalnych kontroli. Docelowym parametrem jest α . Zakładając, że większość zmian w wyniku jest wyjaśniona przez leczenie i rzadki zestaw kontroli, Belloni i in. (2014) opracowali podwójnie niezawodną metodę selekcji, która zapewnia prawidłowe szacunki punktowe i prawidłowe przedziały ufności. To założenie rzadkości jest jednak ważne.yja T.ja Xja α
Dostarczają dowody potwierdzające, dlaczego to działa i dlaczego otrzymujesz prawidłowe przedziały ufności itp. Z tej metody. Pokazują również, że jeśli wykonasz selekcję LASSO tylko na powyższej regresji, a następnie cofniesz wynik leczenia i wybrane zmienne, otrzymasz błędne oceny punktowe i przedziały fałszywego zaufania, jak już powiedział Björn.
Cel ten jest dwojaki: porównanie początkowego modelu, w którym wybór zmiennych kierowany był intuicją lub teorią, z modelem podwójnie niezawodnym, daje wyobrażenie o tym, jak dobry był twój pierwszy model. Być może twój pierwszy model zapomniał o niektórych ważnych kwadratach lub terminach interakcji, przez co cierpi z powodu źle określonej formy funkcjonalnej lub pominiętych zmiennych. Po drugie, Belloni i in. (2014) metoda może poprawić wnioskowanie na temat parametru docelowego, ponieważ nadmiarowe regresory zostały ukarane w swojej procedurze.
źródło
Przeprowadzenie selekcji zmiennych, a następnie ponowne uruchomienie odpowiedzi, tak jakby nie doszło do selekcji zmiennych, a wybrany model miał być zamierzony od samego początku, zwykle prowadzi do przesadzonych rozmiarów efektów, nieprawidłowych wartości p i przedziałów ufności z zakresem poniżej wartości nominalnej. Być może, jeśli wielkość próbki jest bardzo duża i istnieje kilka ogromnych efektów i wiele efektów zerowych, LASSO + OLS może nie być tak bardzo dotknięty, ale poza tym nie widzę żadnego uzasadnionego uzasadnienia, aw tym przypadku LASSO szacunki też powinny być w porządku.
źródło