Przeprowadzam analizę, w której głównym celem jest zrozumienie danych. Zestaw danych jest wystarczająco duży do weryfikacji krzyżowej (10k), a predyktory obejmują zarówno zmienne ciągłe, jak i zmienne, a wynik jest ciągły. Głównym celem było sprawdzenie, czy sensowne jest wyrzucenie niektórych predyktorów, aby ułatwić interpretację modelu.
Pytania:
Moje pytanie brzmi: „które zmienne wyjaśniają wynik i są„ wystarczająco silną ”częścią tego wyjaśnienia”. Ale aby wybrać parametr lambda dla lasso, używasz walidacji krzyżowej, tzn. Kryterium prognostycznym. Czy podczas wnioskowania, trafność predykcyjna jest wystarczająco dobrym proxy dla ogólnego pytania, które zadaję?
Powiedzmy, że LASSO zachowało tylko 3 z 8 predyktorów. A teraz zadaję sobie pytanie: „jaki wpływ mają one na wynik”. Na przykład znalazłem różnicę płci. Po skurczeniu się lasso współczynnik sugeruje, że kobiety osiągają 1 punkt wyżej niż mężczyźni. Ale bez skurczu (tj. W rzeczywistym zbiorze danych) osiągają 2,5 punktu wyżej.
- Który wziąłbym za „prawdziwy” efekt płci? Opierając się wyłącznie na trafności predykcyjnej, byłby to współczynnik skurczony.
- Lub w kontekście powiedz, że piszę raport dla osób, które nie są dobrze zorientowane w statystyce. Jaki współczynnik chciałbym im zgłosić?
źródło
Odpowiedzi:
Jeśli Twoim celem jest dokładne oszacowanie parametrów w twoim modelu, to jak blisko jesteś do prawdziwego modelu, powinieneś wybrać model. Przewidywalna ważność za pomocą walidacji krzyżowej jest jednym ze sposobów, aby to zrobić i jest preferowanym sposobem wyboru w regresji LASSO.∗ λ
Teraz, aby odpowiedzieć na pytanie, który oszacowanie parametru jest „oszacowaniem rzeczywistym”, należy sprawdzić, który parametr jest „najbliższy” rzeczywistej wartości parametru. Czy „najbliższy” oznacza oszacowanie parametru, które minimalizuje stronniczość? Jeśli tak, to estymator najmniejszych kwadratów jest bezstronny w regresji liniowej. Czy najbliższe oznacza oszacowanie parametru, który minimalizuje średni błąd kwadratowy (MSE)? Następnie można wykazać, że istnieje specyfikacja regresji grzbietu, która da ci oszacowania, które minimalizują MSE (podobnie jak LASSO, regresja grzbietu zmniejsza szacunki parametrów do zera, ale w przeciwieństwie do LASSO, szacunki parametrów nie osiągają zera). Podobnie,λ ). Jako statystyk musisz określić, która jest „najlepsza” ocena i zgłosić ją (najlepiej z pewną pewnością zaufania do szacunku) tym, którzy nie są dobrze zorientowani w statystykach. To, co jest „najlepsze”, może, ale nie musi, być stronniczym oszacowaniem.
glmnet
Funkcja w R robi bardzo dobrą robotę wyboru dobrych wartości i, w skrócie, wybierając dzięki wzajemnej weryfikacji i raportowania oceny parametrów jest doskonale rozsądny sposób oszacować „prawdziwą” wartość parametrów.źródło