LASSO dla modeli objaśniających: zmniejszone parametry czy nie?

9

Przeprowadzam analizę, w której głównym celem jest zrozumienie danych. Zestaw danych jest wystarczająco duży do weryfikacji krzyżowej (10k), a predyktory obejmują zarówno zmienne ciągłe, jak i zmienne, a wynik jest ciągły. Głównym celem było sprawdzenie, czy sensowne jest wyrzucenie niektórych predyktorów, aby ułatwić interpretację modelu.

Pytania:

  1. Moje pytanie brzmi: „które zmienne wyjaśniają wynik i są„ wystarczająco silną ”częścią tego wyjaśnienia”. Ale aby wybrać parametr lambda dla lasso, używasz walidacji krzyżowej, tzn. Kryterium prognostycznym. Czy podczas wnioskowania, trafność predykcyjna jest wystarczająco dobrym proxy dla ogólnego pytania, które zadaję?

  2. Powiedzmy, że LASSO zachowało tylko 3 z 8 predyktorów. A teraz zadaję sobie pytanie: „jaki wpływ mają one na wynik”. Na przykład znalazłem różnicę płci. Po skurczeniu się lasso współczynnik sugeruje, że kobiety osiągają 1 punkt wyżej niż mężczyźni. Ale bez skurczu (tj. W rzeczywistym zbiorze danych) osiągają 2,5 punktu wyżej.

    • Który wziąłbym za „prawdziwy” efekt płci? Opierając się wyłącznie na trafności predykcyjnej, byłby to współczynnik skurczony.
    • Lub w kontekście powiedz, że piszę raport dla osób, które nie są dobrze zorientowane w statystyce. Jaki współczynnik chciałbym im zgłosić?
mbokulic
źródło
1
Na jaki model patrzysz? Model liniowy, logistyczny, Poissona itp.?
TrynnaDoStat
1
To model liniowy, ale nie sądzę, żeby miało to znaczenie dla pytania
mbokulic

Odpowiedzi:

7

Jeśli Twoim celem jest dokładne oszacowanie parametrów w twoim modelu, to jak blisko jesteś do prawdziwego modelu, powinieneś wybrać model. Przewidywalna ważność za pomocą walidacji krzyżowej jest jednym ze sposobów, aby to zrobić i jest preferowanym sposobem wyboru w regresji LASSO.λ

Teraz, aby odpowiedzieć na pytanie, który oszacowanie parametru jest „oszacowaniem rzeczywistym”, należy sprawdzić, który parametr jest „najbliższy” rzeczywistej wartości parametru. Czy „najbliższy” oznacza oszacowanie parametru, które minimalizuje stronniczość? Jeśli tak, to estymator najmniejszych kwadratów jest bezstronny w regresji liniowej. Czy najbliższe oznacza oszacowanie parametru, który minimalizuje średni błąd kwadratowy (MSE)? Następnie można wykazać, że istnieje specyfikacja regresji grzbietu, która da ci oszacowania, które minimalizują MSE (podobnie jak LASSO, regresja grzbietu zmniejsza szacunki parametrów do zera, ale w przeciwieństwie do LASSO, szacunki parametrów nie osiągają zera). Podobnie,λ). Jako statystyk musisz określić, która jest „najlepsza” ocena i zgłosić ją (najlepiej z pewną pewnością zaufania do szacunku) tym, którzy nie są dobrze zorientowani w statystykach. To, co jest „najlepsze”, może, ale nie musi, być stronniczym oszacowaniem.

glmnetFunkcja w R robi bardzo dobrą robotę wyboru dobrych wartości i, w skrócie, wybierając dzięki wzajemnej weryfikacji i raportowania oceny parametrów jest doskonale rozsądny sposób oszacować „prawdziwą” wartość parametrów.λλ

Bayesowski model LASSO, który wybiera według marginalnego prawdopodobieństwa, jest przez niektórych preferowany, ale być może błędnie zakładam, że robisz częsty model LASSO.λ

TrynnaDoStat
źródło
Co miałeś na myśli przez „błąd” w „szacunkach parametrów, które minimalizują błąd”? Czy resztę czytam poprawnie, jeśli czytam w ten sposób: powinienem wybrać model, który ma najniższe oszacowane MSE poza próbą (tj. W walidacji krzyżowej)? Ponieważ grzbiet nie wchodzi w rachubę, ponieważ chcę rzadkiej macierzy współczynników, zgłoszenie zmniejszonych współczynników lasso jest
właściwą
@mbokulic Przez odchylenie rozumiem odchylenie statystyczne. Odnosi się to do tendencji procesu pomiarowego do przeszacowania / niedoszacowania wartości parametru populacji. Moja odpowiedź mówi, że to zależy od tego, czego chcesz. Jeśli nie chcesz stronniczości, trzymaj się regresji liniowej. Jeśli nie masz nic przeciwko stronniczości i wolisz zminimalizować MSE, wybierz LASSO i zachowaj należytą staranność przy wyborze . λ
TrynnaDoStat
ciekawe, nigdy nie myślałem o tym w ten sposób. Znów muszę zapytać, czy dobrze cię zrozumiałem. Zatem regresja liniowa daje najbardziej bezstronne oszacowanie współczynników populacji (przykład „2,5 punktu wyżej” w moim pierwotnym pytaniu). Natomiast regran lasso lub grzbiet. zminimalizować MSE poza próbą. Jeśli tak, jeśli chcesz tylko zrozumieć (nie przewidywać), regresja liniowa wydaje się lepsza, choć nadal chciałbyś uprościć model, np. Metodami krokowymi.
mbokulic
odpowiedzi tutaj są pomocne. Sugerują, że OLS (regresja liniowa) ma najlepszą wydajność w próbie, podczas gdy lasso jest poza próbą. Sugerują również, że OLS może być używany na ograniczonym zestawie predyktorów wybranych przez lasso. Właśnie to ma sens dla mojego celu interpretacyjnego, nawet jeśli szacunki OLS nieco się przewyższą.
mbokulic