Krokowy AIC - czy wokół tego tematu istnieją kontrowersje?

17

Przeczytałem niezliczoną liczbę postów na tej stronie, które są niezwykle przeciwne stosowaniu stopniowego wyboru zmiennych przy użyciu dowolnego kryterium, niezależnie od tego, czy będzie to oparte na wartościach p, AIC, BIC itp.

Rozumiem, dlaczego te procedury są ogólnie dość kiepskie w doborze zmiennych. Prawdopodobnie słynny post Gunga jasno ilustruje dlaczego; ostatecznie weryfikujemy hipotezę na tym samym zbiorze danych, z którego korzystaliśmy przy tworzeniu hipotezy, która polega jedynie na pogłębianiu danych. Ponadto na wartości p wpływ mają takie wielkości, jak kolinearność i wartości odstające, które mocno wypaczają wyniki itp.

Jednak ostatnio dość często studiowałem prognozowanie szeregów czasowych i natknąłem się na dobrze szanowany podręcznik Hyndmana, w którym wspomina on tutaj o zastosowaniu selekcji krokowej w celu znalezienia optymalnej kolejności modeli ARIMA. W rzeczywistości w forecastpakiecie w R dobrze znany algorytm znany jako auto.arimadomyślnie stosuje selekcję krokową (z AIC, a nie wartościami p). Krytykuje także wybór funkcji opartych na wartości p, co dobrze pasuje do wielu postów na tej stronie.

Ostatecznie zawsze powinniśmy w jakiś sposób zweryfikować walidację na końcu, jeśli celem jest opracowanie dobrych modeli do prognozowania / prognozowania. Jednak z pewnością jest to nieco nieporozumienie, jeśli chodzi o samą procedurę dotyczącą wskaźników oceny innych niż wartości p.

Czy ktoś ma jakieś opinie na temat stosowania stopniowego AIC w tym kontekście, ale także ogólnie poza tym kontekstem? Nauczono mnie wierzyć, że jakakolwiek stopniowa selekcja jest kiepska, ale szczerze mówiąc, auto.arima(stepwise = TRUE)dawał mi lepsze wyniki próbne niż, auto.arima(stepwise = FALSE)ale być może to tylko zbieg okoliczności.

aranglol
źródło
Jedną z niewielu rzeczy, na które prognostycy mogą się zgodzić, jest to, że wybranie jednego „najlepszego” modelu zwykle działa gorzej niż łączenie wielu różnych modeli.
S. Kolassa - Przywróć Monikę

Odpowiedzi:

20

Jest tu kilka różnych problemów.

  • Prawdopodobnie głównym problemem jest to, że wybór modelu (niezależnie od tego, czy stosuje się wartości p lub AIC, etapy lub wszystkie podzbiory, czy coś innego) jest przede wszystkim problematyczny dla wnioskowania (np. Uzyskiwanie wartości p z odpowiednim błędem typu I, przedziały ufności z odpowiednim zakresem). W celu przewidywania , wybór modelu może rzeczywiście wybrać lepsze miejsce na osi kompromisu wariancji odchylenia i poprawić błąd poza próbą.
  • W przypadku niektórych klas modeli AIC jest asymptotycznie równoważny z błędem CV pomijanym [patrz np. Http://www.petrkeil.com/?p=836 ], więc użycie AIC jako wydajnego obliczeniowo proxy dla CV jest uzasadnione.
  • Selekcja krokowa jest często zdominowana przez inne metody wyboru modelu (lub uśredniania ) (wszystkie podzbiory, jeśli jest to wykonalne obliczeniowo, lub metody skurczu). Ale jest prosty i łatwy do wdrożenia, a jeśli odpowiedź jest wystarczająco jasna (niektóre parametry odpowiadające silnym sygnałom, inne słabe, mało pośrednich), to da rozsądne wyniki. Ponownie istnieje duża różnica między wnioskowaniem a prognozowaniem. Na przykład, jeśli masz kilka silnie skorelowanych predyktorów, wybranie niepoprawnego (z „prawdy” / przyczynowego punktu widzenia) jest dużym problemem dla wnioskowania, ale wybranie tego, który daje najlepszą AIC, jest rozsądnym strategia przewidywania (choć taka, która zawiedzie, jeśli spróbujesz przewidzieć sytuację, w której zmienia się korelacja predyktorów ...)

Podsumowując: w przypadku danych o umiarkowanych rozmiarach z rozsądnym stosunkiem sygnału do szumu, stopniowy wybór oparty na AIC może rzeczywiście stworzyć możliwy do obrony model predykcyjny ; patrz na przykład Murtaugh (2009).

Murtaugh, Paul A. „Wydajność kilku metod selekcji zmiennych zastosowanych do rzeczywistych danych ekologicznych”. Listy ekologiczne 12, nr 10 (2009): 1061–1068.

Ben Bolker
źródło
(+1) Bardzo pouczające. Podejścia wykorzystującego AIC / BIC lub innych kryteriów informacyjnych nie należy mieszać z wykorzystaniem wnioskowania statystycznegop-wartości w każdym przypadku zgodnie z książką Burnham & Anderson „Wybór modelu i wnioskowanie wielomodelowe: praktyczne podejście teoretyczno-informacyjne”.
COOLSerdash
Proszę, nie zaczynaj mnie od Burnhama i Andersona. github.com/bbolker/discretization
Ben Bolker