Przeczytałem niezliczoną liczbę postów na tej stronie, które są niezwykle przeciwne stosowaniu stopniowego wyboru zmiennych przy użyciu dowolnego kryterium, niezależnie od tego, czy będzie to oparte na wartościach p, AIC, BIC itp.
Rozumiem, dlaczego te procedury są ogólnie dość kiepskie w doborze zmiennych. Prawdopodobnie słynny post Gunga jasno ilustruje dlaczego; ostatecznie weryfikujemy hipotezę na tym samym zbiorze danych, z którego korzystaliśmy przy tworzeniu hipotezy, która polega jedynie na pogłębianiu danych. Ponadto na wartości p wpływ mają takie wielkości, jak kolinearność i wartości odstające, które mocno wypaczają wyniki itp.
Jednak ostatnio dość często studiowałem prognozowanie szeregów czasowych i natknąłem się na dobrze szanowany podręcznik Hyndmana, w którym wspomina on tutaj o zastosowaniu selekcji krokowej w celu znalezienia optymalnej kolejności modeli ARIMA. W rzeczywistości w forecast
pakiecie w R dobrze znany algorytm znany jako auto.arima
domyślnie stosuje selekcję krokową (z AIC, a nie wartościami p). Krytykuje także wybór funkcji opartych na wartości p, co dobrze pasuje do wielu postów na tej stronie.
Ostatecznie zawsze powinniśmy w jakiś sposób zweryfikować walidację na końcu, jeśli celem jest opracowanie dobrych modeli do prognozowania / prognozowania. Jednak z pewnością jest to nieco nieporozumienie, jeśli chodzi o samą procedurę dotyczącą wskaźników oceny innych niż wartości p.
Czy ktoś ma jakieś opinie na temat stosowania stopniowego AIC w tym kontekście, ale także ogólnie poza tym kontekstem? Nauczono mnie wierzyć, że jakakolwiek stopniowa selekcja jest kiepska, ale szczerze mówiąc, auto.arima(stepwise = TRUE)
dawał mi lepsze wyniki próbne niż, auto.arima(stepwise = FALSE)
ale być może to tylko zbieg okoliczności.
Odpowiedzi:
Jest tu kilka różnych problemów.
Podsumowując: w przypadku danych o umiarkowanych rozmiarach z rozsądnym stosunkiem sygnału do szumu, stopniowy wybór oparty na AIC może rzeczywiście stworzyć możliwy do obrony model predykcyjny ; patrz na przykład Murtaugh (2009).
Murtaugh, Paul A. „Wydajność kilku metod selekcji zmiennych zastosowanych do rzeczywistych danych ekologicznych”. Listy ekologiczne 12, nr 10 (2009): 1061–1068.
źródło