Wnioskowanie po użyciu Lasso do wyboru zmiennych

17

Korzystam z Lasso do wyboru funkcji w relatywnie niskim wymiarze (n >> p). Po dopasowaniu modelu Lasso chcę użyć zmiennych towarzyszących o niezerowych współczynnikach, aby dopasować model bez kary. Robię to, ponieważ chcę obiektywnych szacunków, których Lasso nie może mi podać. Chciałbym również wartości p i przedziały ufności dla obiektywnego oszacowania.

Mam problem ze znalezieniem literatury na ten temat. Większość literatury, którą znajduję, dotyczy umieszczania przedziałów ufności w oszacowaniach Lasso, a nie modelu dopracowanym.

Z tego, co przeczytałem, zwykłe dopasowanie modelu przy użyciu całego zestawu danych prowadzi do nierealistycznie małych wartości p / błędów standardowych. W tej chwili rozdzielanie próbek (w stylu Wassermana i Roedera (2014) lub Meinshausen i wsp. (2009)) wydaje się dobrym rozwiązaniem, ale szukam więcej sugestii.

Czy ktoś napotkał ten problem? Jeśli tak, czy możesz podać jakieś sugestie.

EliK
źródło
Nie rozumiem, dlaczego powinno to mieć znaczenie, jeśli estymator lasso jest tendencyjny, o ile przedziały ufności mają (przynajmniej asymptotycznie) prawidłowe pokrycie. Czy to jedyny powód, dla którego chcesz dopasować oszacowania OLS do wsparcia odzyskanego przez lasso?
user795305
Być może źle zrozumiałem to, co przeczytałem, ale czy asymptotycznie poprawny opis nie odnosi się do stronniczych szacunków, a nie do prawdziwych ocen rzadkich, ale bezstronnych?
EliK
1
Nie jestem pewien, co rozumiesz przez „prawdziwe rzadkie, ale bezstronne” oszacowanie, ale jeśli wiesz, że szacunki lasso mają przedziały ufności z asymptotycznie poprawnym pokryciem, nie powinno być więcej do zrobienia. Artykuł, który właśnie łączy Greenparker (+1), jest naprawdę interesujący (i najnowszy, który znam na ten temat), który omawia (częściowo), w jaki sposób można opracować asymptotycznie poprawne przedziały ufności na współczynniku lasso a następnie ols. Próbuję podkreślić, że nie trzeba dopasowywać OLS, aby uzyskać obiektywne współczynniki, ponieważ obiektywność nie ma znaczenia.
user795305
Myślę, że nie zrozumiałem. Asymptotycznie poprawny zasięg, o którym mówisz, dotyczy prawdziwego parametru. Więc chociaż Lasso podaje tendencyjne współczynniki, możemy konstruować przedziały ufności, które mają prawidłowe pokrycie dla prawdziwego parametru?
EliK,
2
Po wybraniu modelu nie będziesz mieć bezbłędnych oszacowań, jeśli oszacujesz bez Lasso. Współczynniki terminów w modelu po selekcji zmiennych-następnie-dopasowaniu-przez-OLS będą faktycznie odchylone od 0 (jak w przypadku innych form selekcji zmiennych). Niewielki skurcz może faktycznie zmniejszyć obciążenie.
Glen_b

Odpowiedzi:

12

Aby dodać do poprzednich odpowiedzi. Zdecydowanie powinieneś sprawdzić najnowsze prace Tibshirani i współpracowników. Opracowali rygorystyczne ramy do wnioskowania wartości p skorygowanych o selekcję i przedziałów ufności dla metod typu lasso, a także zapewniają pakiet R.

Widzieć:

Lee, Jason D. i in. „Dokładne wnioskowanie po selekcji, z zastosowaniem do lasso”. The Annals of Statistics 44.3 (2016): 907-927. ( https://projecteuclid.org/euclid.aos/1460381681 )

Taylor, Jonathan i Robert J. Tibshirani. „Nauka statystyczna i wnioskowanie selektywne”. Postępowania z National Academy of Sciences 112.25 (2015): 7629-7634.

Pakiet R:

https://cran.r-project.org/web/packages/selectiveInference/index.html

B. Schubert
źródło
17

Zasadniczo, ponowne zainstalowanie bez kary po dokonaniu selekcji zmiennych za pomocą Lasso jest uważane za „oszustwo”, ponieważ już spojrzałeś na dane, a uzyskane wartości p i przedziały ufności nie są prawidłowe w zwykłym znaczeniu.

p

zbiór zmiennych wybranych przez lasso jest deterministyczny i niezależny od danych z dużym prawdopodobieństwem.

Zatem dwukrotne zerkanie na dane nie stanowi problemu. Będziesz musiał sprawdzić, czy dla twojego problemu warunki określone w wstrzymaniu papieru, czy nie.

(W artykule jest także wiele przydatnych odniesień)


Odniesienie:

Zhao, S., Shojaie, A., i Witten, D. (2017). W obronie tego, co nie do obrony: bardzo naiwne podejście do wnioskowania w wysokich wymiarach. Źródło: https://arxiv.org/pdf/1705.05543.pdf

Greenparker
źródło
9
+1 Warto jednak zauważyć, że autorzy wyraźnie nie zalecają swojego podejścia, z wyjątkiem „bardzo dużych ustawień danych”: „Nie zalecamy stosowania podejścia opisanego powyżej w najbardziej praktycznych ustawieniach analizy danych: jesteśmy pewni że w praktyce ... to podejście będzie działać słabo, gdy wielkość próby będzie niewielka lub umiarkowana i / lub założenia nie zostaną spełnione ”(s. 27). Dla przypomnienia, ten artykuł to Zhao, Shojaie i Witten, In Defense of the Defensible: A Very Naive Approach to High-Dimensional Inference (16 maja 2017).
whuber
@whuber Pamiętaj też, że ten artykuł znajduje się na stronie arxiv.org - nie jestem pewien, czy został sprawdzony przez innych, więc mogą być inne problemy z metodologią autora.
RobertF
0

Chciałem dodać kilka artykułów z literatury dotyczącej ortogonalnego / podwójnego uczenia maszynowego, która staje się popularna w literaturze Applied Econometrics.

  • Belloni, Alexandre, Victor Chernozhukov i Christian Hansen. „Wnioskowanie na temat efektów leczenia po selekcji wśród kontroli wysokowymiarowych”. Przegląd badań ekonomicznych 81.2 (2014): 608–650.

    Ten artykuł dotyczy teoretycznych właściwości oszacowania OLS wpływu zmiennej po wybraniu „innych” elementów sterujących za pomocą LASSO.

  • Victor Chernozhukov, Denis Chetverikov, Mert Demirer, Esther Duflo, Christian Hansen, Whitney Newey, James Robins, Double / debiased machine learning dla leczenia i parametrów strukturalnych, The Econometrics Journal, tom 21, numer 1, 1 lutego 2018, strony C1 – C68 , https://doi.org/10.1111/ectj.12097

    Opracowuje to kompleksową teorię stosowania szeregu metod nieparametrycznych (algorytmów ML) do nieliniowej kontroli nad uciążliwym parametrem wielowymiarowym (czynniki zakłócające), a następnie do badania wpływu określonej zmiennej towarzyszącej na wynik. Dotyczą one szkieletów częściowo liniowych i szkieletów całkowicie parametrycznych. Rozważają również sytuacje, w których zmienna odsetek jest zagmatwana.

FightMilk
źródło