Korzystanie z regularyzacji podczas wnioskowania statystycznego

18

Wiem o zaletach regularyzacji przy budowaniu modeli predykcyjnych (uprzedzenie vs. wariancja, zapobieganie nadmiernemu dopasowaniu). Zastanawiam się jednak, czy dobrym pomysłem jest również regularyzacja (lasso, kalenica, siatka elastyczna), gdy głównym celem modelu regresji jest wnioskowanie o współczynnikach (sprawdzenie, które predyktory są istotne statystycznie). Chciałbym usłyszeć ludzkie myśli, a także linki do wszelkich czasopism naukowych lub artykułów nieakademickich na ten temat.

użytkownik162381
źródło
4
Regularyzację można zobaczyć oczami bayesowskimi, na przykład lasso odpowiada pewnemu podwójnemu wykładniczemu przeorowi (ze skalą wybraną przez walidację krzyżową). Tak więc jedną z możliwości jest przejście do pełnej bayes.
kjetil b halvorsen
1
określanie, które predyktory są niezerowe, jest tym, o co chodzi w Lasso! Jeśli chcesz ustalić, które statystycznie istotnie różnią się od zera, bardzo warto rozważyć takie metody, jak lasso
user795305

Odpowiedzi:

8

Termin „regularyzacja” obejmuje bardzo szeroki zakres metod. Na potrzeby tej odpowiedzi zamierzam zawęzić „optymalizacja ”, tj. Dodanie kary lub do problemu optymalizacji.L1L2

W takim przypadku odpowiedź brzmi: „Tak! Cóż, trochę”.

Powodem tego jest to, że dodanie kary lub do funkcji prawdopodobieństwa prowadzi do dokładnie tej samej funkcji matematycznej, co dodanie albo Laplace'a albo Gaussa przed prawdopodobieństwem uzyskania rozkładu tylnego (skok wysokości: wcześniejszy rozkład opisuje niepewność parametrów przed oglądaniem danych rozkład tylny opisuje niepewność parametrów po obejrzeniu danych), co prowadzi do statystyki bayesowskiej 101. Statystyka bayesowska jest bardzo popularna i wykonywana przez cały czas w celu wnioskowania o szacowanych efektach.L1L2

To było „Tak!” część. „Well kinda” polega na tym, że optymalizacja dystrybucji tylnej jest przeprowadzana i nazywa się ją oszacowaniem „Maximum A Posterior” (MAP). Ale większość Bayesian nie używa oszacowania MAP, próbkuje z rozkładu tylnego przy użyciu algorytmów MCMC! Ma to kilka zalet, z których jedną jest to, że ma tendencję do mniejszego odchylenia w dół w składowych wariancji.

Ze względu na zwięzłość starałem się nie wchodzić w szczegóły dotyczące statystyki bayesowskiej, ale jeśli cię to interesuje, to jest miejsce, gdzie możesz zacząć szukać.

Cliff AB
źródło
2
(+1) Ale jeśli użyłem tych priorów tylko dlatego, że dają one dobre prognozy - a właściwie mógłbym je dostroić do tego celu - to co mam zrobić z oszacowaniami MAP lub późniejszymi rozkładami? (Oczywiście, jeśli poprosiłem przeorów o reprezentowanie wiedzy o parametrach przed obejrzeniem danych, wiem dokładnie, co z nich zrobić.)
Scortchi - Przywróć Monikę
1
@Scortchi: to bardzo dobra uwaga: zastosowanie weryfikacji krzyżowej do wyboru kar znacznie odbiega od klasycznego systemu Bayesa (o ile mi wiadomo). Zbudowanie modelu z CV w celu wybrania parametrów regularyzacji nie byłoby zgodne z tą odpowiedzią, ale skorzystałoby z regularyzacji z ustalonymi karami, wybranymi na podstawie informacji ekspertów.
Cliff AB
2
Słowo ostrzeżenia: Wcześniejsze podejście + MCMC da prawidłowe wyniki tylko wtedy, gdy zostaną zbadane i przedstawione wyniki dla wszystkich potencjalnych współczynników. W przeciwnym razie jesteśmy w ustawieniu wnioskowania selektywnego, a najbardziej naiwne metody wnioskowania będą nieprawidłowe.
user3903581
1
(+1) Dobra odpowiedź! Myślę jednak, że warto wyjaśnić zdanie: „Ale większość Bayesianów nie używa oszacowań MAP, próbkuje z rozkładu bocznego za pomocą algorytmów MCMC!” Wygląda na to, że próbujesz powiedzieć, że większość Bayesianów używa pełnej oceny tylnej przy wyborze estymatora. Aby zobaczyć problem, zwróć uwagę, że szacunkową wartość MAP można wykonać na podstawie próby rozkładu tylnego.
user795305,
8

Istnieje zasadnicza różnica między przeprowadzaniem oszacowań za pomocą kar typu kalenicowego a karami typu lasso. Estymatory typu grzbietu mają tendencję do zmniejszania wszystkich współczynników regresji do zera i są tendencyjne, ale mają łatwy do uzyskania rozkład asymptotyczny, ponieważ nie zmniejszają żadnej zmiennej do zera. Odchylenie w szacunkach grzbietu może być problematyczne w późniejszych testach hipotez, ale nie jestem ekspertem w tej dziedzinie. Z drugiej strony kary typu Lasso / siatka elastyczna zmniejszają wiele współczynników regresji do zera i dlatego mogą być postrzegane jako techniki wyboru modelu. Problem wykonywania wnioskowania na modelach wybranych na podstawie danych jest zwykle określany jako problem wnioskowania selektywnego lub wnioskowanie po selekcji. W tej dziedzinie odnotowano wiele zmian w ostatnich latach.

yN(μ,1)μμ|y|>c>0cycy

Podobnie Lasso (lub elastyczna siatka) ogranicza przestrzeń próbki w taki sposób, aby zapewnić, że wybrany model został wybrany. To obcinanie jest bardziej skomplikowane, ale można je opisać analitycznie.

Na podstawie tego wglądu można wnioskować na podstawie skróconego rozkładu danych w celu uzyskania prawidłowych statystyk testowych. Przedziały ufności i statystyki testów można znaleźć w pracy Lee et al .: http://projecteuclid.org/euclid.aos/1460381681

Ich sposoby są implementowane w pakiecie R selectiveInference .

Optymalne oszacowanie (i testowanie) po wyborze modelu omówiono w (dla lasso): https://arxiv.org/abs/1705.09417

a ich (znacznie mniej kompleksowy) pakiet oprogramowania jest dostępny w: https://github.com/ammeir2/selectiveMLE

użytkownik3903581
źródło
4

Szczególnie poleciłbym LASSO, jeśli próbujesz użyć regresji do wnioskowania na podstawie „które predyktory są istotne statystycznie” - ale nie z powodu, którego możesz się spodziewać.

W praktyce predyktory w modelu są zwykle skorelowane. Nawet jeśli nie ma znacznej wielokoliniowości, wybór regresji „znaczących” predyktorów spośród zestawu skorelowanych predyktorów może się znacznie różnić w zależności od próbki.

Więc tak, śmiało i zrób LASSO dla swojej regresji. Następnie powtórz cały proces budowy modelu (w tym krzyżową weryfikację, aby wybrać karę LASSO) na wielu próbkach ładowania początkowego (kilkaset) z oryginalnych danych. Zobacz, jak zmienny może być zestaw „znaczących” predyktorów wybranych w ten sposób.

O ile twoje predyktory nie są względem siebie wysoce ortogonalne, proces ten powinien sprawić, że pomyślisz dwa razy o interpretacji wartości p w regresji, w odniesieniu do której poszczególne predyktory są „znacząco” ważne.

EdM
źródło
1
+1 Zgadzam się ze wszystkim, co napisałem, bardzo pragmatyczną odpowiedzią, ale dlaczego nie użyć elastycznej siatki zamiast LASSO? (biorąc pod uwagę również, że PO również o tym wspomina). Regularyzacja grzbietu kontrolowałaby korelacje między predyktorami nieco bardziej wyraźnie.
usεr11852 mówi: Przywróć Monic
W rzeczywistości możliwe jest obliczenie prawidłowych wartości p, szacunków i przedziałów ufności w modelach wybranych za pomocą elastycznej sieci lasso LUB, po prostu trzeba to zrobić poprawnie.
user3903581
@ user3903581 Nie podważam, że można uzyskać prawidłowe częstościowe wartości p LASSO, w tym sensie, że prawdziwa hipoteza zerowa spowodowałaby tak duży współczynnik mniejszy niż, powiedzmy, 5% powtórzonych próbek. Problem polega na zbyt częstych próbach przypisywania wnioskowania przyczynowego tylko predyktorom uznanym w ten sposób za „znaczące” bez uwzględnienia kwestii podniesionych przez skorelowane predyktory.
EdM,