Pracując głównie z danymi przekrojowymi do tej pory i bardzo niedawno przeglądając, skanując potykając się o kilka wstępnych literatur szeregów czasowych, zastanawiam się, jaką rolę odgrywają zmienne objaśniające w analizie szeregów czasowych.
Chciałbym wyjaśnić trend zamiast usuwania trendów. Większość tego, co przeczytałem jako wstęp, zakłada, że seria wywodzi się z jakiegoś procesu stochastycznego. Czytałem o procesach AR (p) i MA oraz modelowaniu ARIMA. Chcąc poradzić sobie z większą ilością informacji niż tylko z procesami autoregresyjnymi, znalazłem VAR / VECM i podałem kilka przykładów, ale wciąż zastanawiam się, czy jest jakiś przypadek związany bliżej z tym, co wyjaśnienia robią w przekrojach.
Motywacją tego jest to, że rozkład mojej serii pokazuje, że trend jest głównym czynnikiem, podczas gdy reszta i efekt sezonowy prawie nie odgrywają żadnej roli. Chciałbym wyjaśnić ten trend.
Czy mogę / powinienbym regresować moją serię w wielu różnych seriach? Intuicyjnie używałbym gls z powodu szeregowej korelacji (nie jestem pewien co do struktury kore). Słyszałem o fałszywej regresji i rozumiem, że to pułapka, ale szukam sposobu na wyjaśnienie trendu.
Czy to jest całkowicie złe czy rzadkie? A może właśnie przegapiłem jak dotąd odpowiedni rozdział?
źródło
Tę samą intuicję jak w regresji przekroju można zastosować w regresji szeregów czasowych. Jest całkowicie poprawne, aby spróbować wyjaśnić trend za pomocą innych zmiennych. Główną różnicą jest to, że domyślnie zakłada się, że regresory są zmiennymi losowymi. W modelu regresji:
wymagamy zamiast iE(εt|Xt1,...,Xtk)=0 Eεt=0 E(ε2t|Xt1,...,Xtk)=σ2 zamiastEε2t=σ2 .
Praktyczna część regresji pozostaje taka sama, obowiązują wszystkie zwykłe statystyki i metody.
Trudność polega na pokazaniu, dla których typów zmiennych losowych lub w tym przypadku procesów stochastycznychXtk możemy zastosować klasyczne metody. Zwykłe centralne twierdzenie o granicy nie może być zastosowane, ponieważ dotyczy niezależnych zmiennych losowych. Procesy szeregów czasowych zwykle nie są niezależne. W tym przypadku odgrywa rolę znaczenie stacjonarności. Wykazano, że dla dużej części procesów stacjonarnych można zastosować centralne twierdzenie graniczne, więc można zastosować klasyczną analizę regresji.
Głównym zastrzeżeniem regresji szeregów czasowych jest to, że może ona masowo zawieść, gdy regresory nie są nieruchome. Wtedy zwykłe metody regresji mogą pokazać, że trend jest wyjaśniony, a w rzeczywistości tak nie jest. Więc jeśli chcesz wyjaśnić trend, musisz sprawdzić niestabilność przed kontynuowaniem. W przeciwnym razie możesz dojść do fałszywych wniosków.
źródło
Gdy masz serię wspierającą / przyczynową / pomocniczą / prawostronną / egzogeniczną / predyktorową, preferowane jest podejście polegające na skonstruowaniu pojedynczego równania, funkcji przenoszenia z wieloma wejściami. Trzeba zbadać możliwe resztki modelu zarówno dla nieokreślonych / pominiętych deterministycznych danych wejściowych, tj. Zrobić wykrywanie interwencji ala Ruey Tsay 1988 Journal of Forecasting i nieokreślonych danych stochastycznych za pośrednictwem komponentu ARIMA. W ten sposób możesz jawnie uwzględnić nie tylko sugerowane przez użytkownika przyczyny (i wszelkie potrzebne opóźnienia!), Ale dwa rodzaje pominiętych struktur (atrapy i ARIMA).
Należy zadbać o to, aby parametry ostatecznego modelu nie zmieniały się znacząco w czasie, w przeciwnym razie segmentacja danych może być w porządku i że nie można udowodnić, że reszty z ostatecznego modelu mają niejednorodną wariancję.
Tendencja w pierwotnej serii może wynikać z trendów w serii predyktorów lub z powodu autoregresji dynamiki w danej serii lub potencjalnie z powodu pominiętej serii deterministycznej, której towarzyszy stała stała lub nawet jeden lub więcej trendów czasu lokalnego.
źródło
Z mniej technicznego punktu widzenia często nie jest bardzo pomocne wyjaśnienie trendu; to znaczy traktować czas jako predyktor głównego interesu. Zróżnicowanie serii w czasie często implikuje podstawowe skutki innych zmiennych, w tym procesów autoregresyjnych i / lub egzogenicznych, co jest bardziej istotne z punktu widzenia koncepcji do zbadania. Wynika z tego, że jeśli zmienne te również zmieniają się w czasie, to w rzeczywistości kontrola wpływu czasu jest w rzeczywistości konieczna, aby nie wpaść w sztucznie istotny związek, jak pokazał @mpiktas.
źródło