Mam pytanie / zamieszanie dotyczące stacjonarnych serii wymaganych do modelowania za pomocą ARIMA (X). Myślę o tym bardziej w kategoriach wnioskowania (efekt interwencji), ale chciałbym wiedzieć, czy prognozowanie kontra wnioskowanie ma jakikolwiek wpływ na odpowiedź.
Pytanie:
Wszystkie wstępne materiały, które przeczytałem, stwierdzają, że seria musi być stacjonarna, co ma dla mnie sens i właśnie tam pojawia się „ja” w arimie (różnicowanie).
To, co mnie dezorientuje, to wykorzystanie trendów i dryfów w ARIMA (X) i implikacje (jeśli w ogóle) dla wymagań stacjonarnych.
Czy użycie albo stałej / znoszenia i / lub zmiennej trendu jako zmiennej egzogenicznej (tj. Dodanie „t” jako regresora) neguje wymóg stacjonarności szeregu? Czy odpowiedź różni się w zależności od tego, czy seria ma pierwiastek jednostkowy (np. Test ADF), czy trend deterministyczny, ale nie ma pierwiastka jednostkowego?
LUB
Czy seria zawsze musi być stacjonarna, wykonana przez różnicowanie i / lub zniechęcanie przed użyciem ARIMA (X)?
źródło
Pamiętaj, że istnieją różne rodzaje niestacjonarności i różne sposoby radzenia sobie z nimi. Cztery typowe to:
1) Trendy deterministyczne lub stacjonarność trendów. Jeśli twoja seria jest tego rodzaju, usuń trend lub włącz trend czasowy do regresji / modelu. Być może warto sprawdzić w tym przypadku twierdzenie Frisch – Waugh – Lovell.
2) Przesunięcia poziomów i przerwy konstrukcyjne. W takim przypadku należy dołączyć zmienną fikcyjną dla każdej przerwy lub jeśli próbka jest wystarczająco długa, modeluj każdy schemat osobno.
3) Zmiana wariancji. Albo modeluj próbki osobno, albo modeluj zmieniającą się wariancję za pomocą klasy modelowania ARCH lub GARCH.
4) Jeśli twoja seria zawiera katalog główny. Zasadniczo powinieneś wtedy sprawdzić współzależne relacje między zmiennymi, ale ponieważ zajmujesz się prognozowaniem jednowymiarowym, powinieneś różnicować to raz lub dwa razy w zależności od kolejności integracji.
Aby modelować szeregi czasowe przy użyciu klasy modelowania ARIMA, odpowiednie powinny być następujące kroki:
1) Spójrz na ACF i PACF wraz z wykresem szeregów czasowych, aby zobaczyć, czy seria jest stacjonarna lub niestacjonarna.
2) Przetestuj szereg pod kątem pierwiastka jednostkowego. Można tego dokonać za pomocą szerokiego zakresu testów, z których jednymi z najczęstszych są: test ADF, test Phillipsa-Perrona (PP), test KPSS o zerowej stacjonarności lub test DF-GLS, który jest najbardziej wydajny wyżej wymienionych testów. UWAGA! Że w przypadku, gdy twoja seria zawiera pęknięcie strukturalne, testy są tendencyjne, aby nie odrzucać zera zera jednostki. Jeśli chcesz przetestować solidność tych testów i podejrzewasz jedno lub więcej pęknięć strukturalnych, powinieneś zastosować endogeniczne testy pęknięć strukturalnych. Dwa powszechne to test Zivota-Andrewsa, który pozwala na jedno endogeniczne pęknięcie strukturalne oraz Clemente-Montañés-Reyes, który pozwala na dwa pęknięcia strukturalne. Ten ostatni pozwala na dwa różne modele.
3) Jeśli w szeregu występuje pierwiastek jednostkowy, należy różnicować szereg. Następnie powinieneś przyjrzeć się ACF, PACF i wykresowi szeregów czasowych i prawdopodobnie sprawdzić, czy root drugiej jednostki jest po bezpiecznej stronie. ACF i PACF pomogą ci zdecydować, ile warunków AR i MA powinieneś uwzględniać.
4) Jeśli seria nie zawiera pierwiastka podstawowego, ale wykres szeregów czasowych i ACF pokazują, że seria ma trend deterministyczny, należy dodać trend podczas dopasowywania modelu. Niektóre osoby twierdzą, że całkowicie słuszne jest różnicowanie serii, gdy zawiera ona deterministyczny trend, chociaż informacje mogą zostać utracone w procesie. Niemniej jednak dobrym pomysłem jest różnicowanie go, aby mieć wiele warunków AR i / lub MA, które musisz uwzględnić. Ale trend czasowy jest ważny.
5) Dopasuj różne modele i wykonaj zwykłe sprawdzenie diagnostyczne, możesz użyć kryterium informacyjnego lub MSE, aby wybrać najlepszy model, biorąc pod uwagę próbkę, na której go dopasujesz.
6) Wykonaj przykładowe prognozowanie na najlepiej dopasowanych modelach i oblicz funkcje strat, takie jak MSE, MAPE, MAD, aby zobaczyć, które z nich faktycznie działają najlepiej, gdy używają ich do prognozowania, ponieważ właśnie to chcemy zrobić!
7) Wykonuj prognozy poza próbą jak szef i bądź zadowolony z wyników!
źródło
Określenie, czy trend (lub inny składnik, taki jak sezonowość) jest deterministyczny czy stochastyczny, jest częścią układanki w analizie szeregów czasowych. Dodam kilka punktów do tego, co zostało powiedziane.
1) Istotne jest rozróżnienie między trendami deterministycznymi a stochastycznymi, ponieważ jeśli pierwiastek jest obecny w danych (np. Losowy spacer), to statystyki testowe wykorzystywane do wnioskowania nie są zgodne z tradycyjnym rozkładem. Zobacz ten post, aby uzyskać szczegółowe informacje i odniesienia.
Możemy symulować losowy spacer (trend stochastyczny, w którym należy wziąć pierwsze różnice), przetestować istotność trendu deterministycznego i zobaczyć procent przypadków, w których zerowa wartość trendu deterministycznego jest odrzucana. W R możemy wykonać:
Na poziomie istotności 5% spodziewalibyśmy się odrzucić zero w 95% przypadków, jednak w tym eksperymencie został on odrzucony tylko w ~ 89% przypadków z 10 000 symulowanych losowych spacerów.
Możemy zastosować testy root root, aby sprawdzić, czy root root jest obecny. Musimy jednak pamiętać, że trend liniowy może z kolei prowadzić do odrzucenia zerowej wartości pierwiastka jednostkowego. Aby temu zaradzić, test KPSS uwzględnia zerową stacjonarność wokół trendu liniowego.
2) Kolejną kwestią jest interpretacja deterministycznych składników w procesie w poziomach lub pierwszych różnicach. Efekt przechwycenia nie jest taki sam w modelu z trendem liniowym, jak w przypadkowym marszu. Zobacz ten post jako ilustrację.
Dojeżdżamy do:
Jeśli graficzna reprezentacja szeregu pokazuje względnie wyraźny trend liniowy, nie możemy być pewni, czy wynika to z obecności deterministycznego trendu liniowego, czy z dryftu w procesie chodzenia losowego. Należy zastosować komplementarną grafikę i statystyki testów.
Należy pamiętać o kilku zastrzeżeniach, ponieważ analiza oparta na rdzeniu jednostki i innych statystykach testu nie jest niezawodna. Na niektóre z tych testów może mieć wpływ obecność obserwacji odległych lub przesunięć poziomów i wymagać wyboru kolejności opóźnień, co nie zawsze jest proste.
Aby obejść tę zagadkę, uważam, że powszechną praktyką jest przyjmowanie różnic w danych, dopóki seria nie będzie wyglądać nieruchomo (na przykład patrząc na funkcję autokorelacji, która powinna szybko zerować), a następnie wybrać model ARMA.
źródło
Bardzo interesujące pytanie, chciałbym również wiedzieć, co mają do powiedzenia inni. Z wykształcenia jestem inżynierem, a nie statystykiem, więc ktoś może sprawdzić moją logikę. Jako inżynierowie chcielibyśmy symulować i eksperymentować, więc zmotywowałem się do symulacji i przetestowania twojego pytania.
Jak pokazano poniżej empirycznie, użycie zmiennej trendu w ARIMAX neguje potrzebę różnicowania i powoduje, że trend szeregowy jest nieruchomy. Oto logika, której użyłem do weryfikacji.
Poniżej znajduje się kod R i wykresy:
AR (1) Symulacja wykresu
AR (1) z trendem deterministycznym
ARIMAX Resztkowy PACF z tendencją jako egzogenną. Residulas są losowe, bez pozostawionego wzoru
Jak widać powyżej, modelowanie trendu deterministycznego jako zmiennej egzogenicznej w modelu ARIMAX eliminuje potrzebę różnicowania. Przynajmniej w przypadku deterministycznym działało. Zastanawiam się, jak to by się zachowało z tendencją stochastyczną, którą bardzo trudno przewidzieć lub modelować.
Aby odpowiedzieć na drugie pytanie, TAK, wszystkie ARIMA, w tym ARIMAX, muszą stać na miejscu. Przynajmniej tak mówią podręczniki.
Ponadto, jak skomentowano, zobacz ten artykuł . Bardzo jasne wyjaśnienie trendu deterministycznego vs. trendu stochastycznego i sposobu ich usunięcia, aby stał się trendem stacjonarnym, a także bardzo ładne badanie literatury na ten temat. Używają go w kontekście sieci neuronowej, ale jest to przydatne w przypadku ogólnego problemu szeregów czasowych. Ich ostatecznym zaleceniem jest, gdy jest wyraźnie zidentyfikowany jako trend deterministyczny, zniechęcanie liniowe, w przeciwnym razie zastosuj różnicowanie, aby uszeregować szeregi czasowe. Jury wciąż tam jest, ale większość badaczy cytowanych w tym artykule zaleca różnicowanie zamiast linearnego zniechęcania.
Edytować:
Poniżej znajduje się losowy spacer z procesem stochastycznym z wykorzystaniem dryfu, z wykorzystaniem zmiennych egzogenicznych i różnic. Oba wydają się dawać tę samą odpowiedź iw istocie są takie same.
Mam nadzieję że to pomoże!
źródło