Wiem o zaletach regularyzacji przy budowaniu modeli predykcyjnych (uprzedzenie vs. wariancja, zapobieganie nadmiernemu dopasowaniu). Zastanawiam się jednak, czy dobrym pomysłem jest również regularyzacja (lasso, kalenica, siatka elastyczna), gdy głównym celem modelu regresji jest wnioskowanie o współczynnikach (sprawdzenie, które predyktory są istotne statystycznie). Chciałbym usłyszeć ludzkie myśli, a także linki do wszelkich czasopism naukowych lub artykułów nieakademickich na ten temat.
inference
lasso
ridge-regression
elastic-net
selectiveinference
użytkownik162381
źródło
źródło
Odpowiedzi:
Termin „regularyzacja” obejmuje bardzo szeroki zakres metod. Na potrzeby tej odpowiedzi zamierzam zawęzić „optymalizacja ”, tj. Dodanie kary lub do problemu optymalizacji.L1 L2
W takim przypadku odpowiedź brzmi: „Tak! Cóż, trochę”.
Powodem tego jest to, że dodanie kary lub do funkcji prawdopodobieństwa prowadzi do dokładnie tej samej funkcji matematycznej, co dodanie albo Laplace'a albo Gaussa przed prawdopodobieństwem uzyskania rozkładu tylnego (skok wysokości: wcześniejszy rozkład opisuje niepewność parametrów przed oglądaniem danych rozkład tylny opisuje niepewność parametrów po obejrzeniu danych), co prowadzi do statystyki bayesowskiej 101. Statystyka bayesowska jest bardzo popularna i wykonywana przez cały czas w celu wnioskowania o szacowanych efektach.L1 L2
To było „Tak!” część. „Well kinda” polega na tym, że optymalizacja dystrybucji tylnej jest przeprowadzana i nazywa się ją oszacowaniem „Maximum A Posterior” (MAP). Ale większość Bayesian nie używa oszacowania MAP, próbkuje z rozkładu tylnego przy użyciu algorytmów MCMC! Ma to kilka zalet, z których jedną jest to, że ma tendencję do mniejszego odchylenia w dół w składowych wariancji.
Ze względu na zwięzłość starałem się nie wchodzić w szczegóły dotyczące statystyki bayesowskiej, ale jeśli cię to interesuje, to jest miejsce, gdzie możesz zacząć szukać.
źródło
Istnieje zasadnicza różnica między przeprowadzaniem oszacowań za pomocą kar typu kalenicowego a karami typu lasso. Estymatory typu grzbietu mają tendencję do zmniejszania wszystkich współczynników regresji do zera i są tendencyjne, ale mają łatwy do uzyskania rozkład asymptotyczny, ponieważ nie zmniejszają żadnej zmiennej do zera. Odchylenie w szacunkach grzbietu może być problematyczne w późniejszych testach hipotez, ale nie jestem ekspertem w tej dziedzinie. Z drugiej strony kary typu Lasso / siatka elastyczna zmniejszają wiele współczynników regresji do zera i dlatego mogą być postrzegane jako techniki wyboru modelu. Problem wykonywania wnioskowania na modelach wybranych na podstawie danych jest zwykle określany jako problem wnioskowania selektywnego lub wnioskowanie po selekcji. W tej dziedzinie odnotowano wiele zmian w ostatnich latach.
Podobnie Lasso (lub elastyczna siatka) ogranicza przestrzeń próbki w taki sposób, aby zapewnić, że wybrany model został wybrany. To obcinanie jest bardziej skomplikowane, ale można je opisać analitycznie.
Na podstawie tego wglądu można wnioskować na podstawie skróconego rozkładu danych w celu uzyskania prawidłowych statystyk testowych. Przedziały ufności i statystyki testów można znaleźć w pracy Lee et al .: http://projecteuclid.org/euclid.aos/1460381681
Ich sposoby są implementowane w pakiecie R selectiveInference .
Optymalne oszacowanie (i testowanie) po wyborze modelu omówiono w (dla lasso): https://arxiv.org/abs/1705.09417
a ich (znacznie mniej kompleksowy) pakiet oprogramowania jest dostępny w: https://github.com/ammeir2/selectiveMLE
źródło
Szczególnie poleciłbym LASSO, jeśli próbujesz użyć regresji do wnioskowania na podstawie „które predyktory są istotne statystycznie” - ale nie z powodu, którego możesz się spodziewać.
W praktyce predyktory w modelu są zwykle skorelowane. Nawet jeśli nie ma znacznej wielokoliniowości, wybór regresji „znaczących” predyktorów spośród zestawu skorelowanych predyktorów może się znacznie różnić w zależności od próbki.
Więc tak, śmiało i zrób LASSO dla swojej regresji. Następnie powtórz cały proces budowy modelu (w tym krzyżową weryfikację, aby wybrać karę LASSO) na wielu próbkach ładowania początkowego (kilkaset) z oryginalnych danych. Zobacz, jak zmienny może być zestaw „znaczących” predyktorów wybranych w ten sposób.
O ile twoje predyktory nie są względem siebie wysoce ortogonalne, proces ten powinien sprawić, że pomyślisz dwa razy o interpretacji wartości p w regresji, w odniesieniu do której poszczególne predyktory są „znacząco” ważne.
źródło