Próbuję użyć modelu LASSO do prognozowania i muszę oszacować standardowe błędy. Z pewnością ktoś już napisał paczkę, aby to zrobić. Ale o ile widzę, żaden z pakietów w CRAN, który wykonuje prognozy za pomocą LASSO, nie zwróci standardowych błędów dla tych prognoz.
Więc moje pytanie brzmi: czy jest dostępny pakiet lub jakiś kod R do obliczenia standardowych błędów dla prognoz LASSO?
r
standard-error
prediction
lasso
Rob Hyndman
źródło
źródło
monomvn
, zobacz moją odpowiedź poniżej.Odpowiedzi:
Kyung i in. (2010), „Regresja karna, błędy standardowe i lasy Bayesa”, Analiza Bayesa, 5 , 2 , sugerują, że może nie być konsensusu w sprawie statystycznie poprawnej metody obliczania standardowych błędów dla prognoz Lasso. Tibshirani wydaje się zgadzać (slajd 43), że standardowe błędy są nadal nierozwiązanym problemem.
źródło
W powiązanej notatce, która może być pomocna, Tibshirani i współpracownicy zaproponowali test istotności dla lasso. Papier jest dostępny, a zatytułowany „Test istotności dla lasso”. Darmowa wersja artykułu znajduje się tutaj
źródło
Odpowiedź Sandipana Karmakara mówi, co robić, to powinno ci pomóc w „jak”:
[...]
źródło
Bayesian LASSO jest jedyną alternatywą dla problemu obliczania standardowych błędów. Standardowe błędy są automatycznie obliczane w Bayesian LASSO ... Możesz bardzo łatwo wdrożyć Bayesian LASSO za pomocą schematu Gibbs Sampling ...
Bayesian LASSO potrzebuje wcześniejszych dystrybucji, które zostaną przypisane do parametrów modelu. W modelu LASSO mamy funkcję celu z jako parametr regularyzacji. Tutaj, ponieważ mamy -norm dla więc potrzebny jest do tego specjalny rodzaj wcześniejszej dystrybucji, rozkład LAPLACE skalowana mieszanina rozkładu normalnego z rozkładem wykładniczym jako gęstość mieszania. Na podstawie pełnego warunkowego posteriora każdego z parametrów należy wywnioskować.||y−Xβ||22+λ||β||1 λ ℓ1 β
Następnie można użyć Gibbs Sampling do symulacji łańcucha. Patrz Park & Cassella (2008), „The Bayesian Lasso”, JASA , 103 , 482 .
Istnieją trzy nieodłączne wady LASSO:
Trzeba wybrać metodą krzyżowej weryfikacji lub w inny sposób.λ
Błędy standardowe są trudne do obliczenia, ponieważ LARS i inne algorytmy generują oszacowania punktowe dla .β
Hierarchicznej struktury problemu nie da się zakodować za pomocą modelu częstościowego, co jest dość łatwe w ramach Bayesa.
źródło
Aby dodać do powyższych odpowiedzi, wydaje się, że problem polega na tym, że nawet bootstrap jest prawdopodobnie niewystarczający, ponieważ oszacowanie z modelu ukaranego jest tendencyjne, a bootstrap będzie mówił tylko o wariancji - ignorując odchylenie oszacowania. Jest to ładnie podsumowane w winiecie dla ukaranego opakowania na stronie 18 .
Jeśli jednak jest używany do przewidywania, dlaczego wymagany jest standardowy błąd z modelu? Czy nie można odpowiednio sprawdzić poprawności lub uruchomić i wygenerować standardowy błąd wokół metryki związanej z prognozowaniem, takiej jak MSE?
źródło
W pakiecie R znajduje się pakiet selektywnych wniosków, https://cran.r-project.org/web/packages/selectiveInference/index.html , który zapewnia przedziały ufności i wartości p dla współczynników dopasowanych przez LASSO na podstawie poniższego dokumentu :
Stephen Reid, Jerome Friedman i Rob Tibshirani (2014). Badanie estymacji wariancji błędów w regresji lasso. arXiv: 1311.5274
PS: po prostu zdaj sobie sprawę, że to daje oszacowania błędów dla twoich parametrów, nie jestem pewien błędu w ostatecznej prognozie, jeśli to jest to, czego szukasz ... Przypuszczam, że możesz użyć „przedziałów prognoz populacji” , jeśli chcesz (przez parametry ponownego próbkowania zgodnie z dopasowaniem po wielowymiarowym rozkładzie normalnym).
źródło