Co zrobić z objaśnieniami w szeregach czasowych?

11

Pracując głównie z danymi przekrojowymi do tej pory i bardzo niedawno przeglądając, skanując potykając się o kilka wstępnych literatur szeregów czasowych, zastanawiam się, jaką rolę odgrywają zmienne objaśniające w analizie szeregów czasowych.

Chciałbym wyjaśnić trend zamiast usuwania trendów. Większość tego, co przeczytałem jako wstęp, zakłada, że ​​seria wywodzi się z jakiegoś procesu stochastycznego. Czytałem o procesach AR (p) i MA oraz modelowaniu ARIMA. Chcąc poradzić sobie z większą ilością informacji niż tylko z procesami autoregresyjnymi, znalazłem VAR / VECM i podałem kilka przykładów, ale wciąż zastanawiam się, czy jest jakiś przypadek związany bliżej z tym, co wyjaśnienia robią w przekrojach.

Motywacją tego jest to, że rozkład mojej serii pokazuje, że trend jest głównym czynnikiem, podczas gdy reszta i efekt sezonowy prawie nie odgrywają żadnej roli. Chciałbym wyjaśnić ten trend.

Czy mogę / powinienbym regresować moją serię w wielu różnych seriach? Intuicyjnie używałbym gls z powodu szeregowej korelacji (nie jestem pewien co do struktury kore). Słyszałem o fałszywej regresji i rozumiem, że to pułapka, ale szukam sposobu na wyjaśnienie trendu.

Czy to jest całkowicie złe czy rzadkie? A może właśnie przegapiłem jak dotąd odpowiedni rozdział?

hans0l0
źródło

Odpowiedzi:

15

W oparciu o komentarze, które zaoferowałeś w odpowiedziach, musisz zdawać sobie sprawę z fałszywego związku przyczynowego . Każda zmienna z trendem czasowym będzie skorelowana z inną zmienną, która również ma trend czasowy. Na przykład moja waga od urodzenia do 27 roku życia będzie silnie skorelowana z twoją wagą od urodzenia do 27 roku życia. Oczywiście, moja waga nie jest spowodowana twoją wagą. Jeśli tak, proszę o częstsze chodzenie na siłownię.

Ponieważ znasz dane przekroju, dam ci wyjaśnienie dotyczące pominiętych zmiennych. Niech moja waga będzie a twoja waga będzie , gdzie xtyt

xt=α0+α1t+ϵt andyt=β0+β1t+ηt.

Następnie regresja ma zmienną pominiętą --- trend czasowy --- skorelowany z zawartą zmienną . W związku z tym współczynnik będzie tendencyjny (w tym przypadku będzie dodatni, ponieważ nasze wagi rosną z czasem).

yt=γ0+γ1xt+νt
xtγ1

Kiedy przeprowadzasz analizę szeregów czasowych, musisz mieć pewność, że twoje zmienne są nieruchome, w przeciwnym razie otrzymasz te fałszywe wyniki przyczynowe. Wyjątkiem byłyby zintegrowane serie, ale odsyłam do tekstów szeregów czasowych, aby dowiedzieć się więcej na ten temat.

Charlie
źródło
5
+1 na przykład fałszywa regresja.
Wykorzysta
1
Ech, idziesz na siłownię, żeby schudnąć? :)
hans0l0
6

Tę samą intuicję jak w regresji przekroju można zastosować w regresji szeregów czasowych. Jest całkowicie poprawne, aby spróbować wyjaśnić trend za pomocą innych zmiennych. Główną różnicą jest to, że domyślnie zakłada się, że regresory są zmiennymi losowymi. W modelu regresji:

Yt=β0+Xt1β1+...+Xtkβk+εt

wymagamy zamiast i E(εt|Xt1,...,Xtk)=0Eεt=0E(εt2|Xt1,...,Xtk)=σ2 zamiastEεt2=σ2.

Praktyczna część regresji pozostaje taka sama, obowiązują wszystkie zwykłe statystyki i metody.

Trudność polega na pokazaniu, dla których typów zmiennych losowych lub w tym przypadku procesów stochastycznych Xtkmożemy zastosować klasyczne metody. Zwykłe centralne twierdzenie o granicy nie może być zastosowane, ponieważ dotyczy niezależnych zmiennych losowych. Procesy szeregów czasowych zwykle nie są niezależne. W tym przypadku odgrywa rolę znaczenie stacjonarności. Wykazano, że dla dużej części procesów stacjonarnych można zastosować centralne twierdzenie graniczne, więc można zastosować klasyczną analizę regresji.

Głównym zastrzeżeniem regresji szeregów czasowych jest to, że może ona masowo zawieść, gdy regresory nie są nieruchome. Wtedy zwykłe metody regresji mogą pokazać, że trend jest wyjaśniony, a w rzeczywistości tak nie jest. Więc jeśli chcesz wyjaśnić trend, musisz sprawdzić niestabilność przed kontynuowaniem. W przeciwnym razie możesz dojść do fałszywych wniosków.

mpiktas
źródło
1
Dziękuję za cierpliwość. Nadal PKB może być możliwym wyjaśnieniem mojej zmiennej. Prawdopodobnie lepiej stosuję stopy wzrostu, ponieważ w przeciwnym razie jest to po prostu trend czasowy. Powodem, dla którego chcę zastosować regresję, jest to, że jestem zainteresowany wydobyciem tego, co tak naprawdę NIE jest wyjaśnione zmiennymi trendu czasowego, takimi jak PKB.
hans0l0
1
@ ran2, zawsze najlepiej jest użyć wzrostu PKB zamiast jego rzeczywistej wartości. Zauważ, że analiza regresji może również powiedzieć, które zmienne nie wyjaśniają trendu, więc może się okazać, że nie będzie żadnych zmiennych, które mogłyby wyjaśnić twój trend (lub zmienne, o których myślałeś, nie wyjaśniają trendu).
mpiktas
1
@raegtin, procesy stacjonarne, które nie mają na przykład drugich chwil.
mpiktas
1
Jedyne, co chciałbym dodać, to być ostrożnym przy użyciu światowego „wyjaśnić”. Niektórym recenzentom to się nie spodoba.
Jase
1
@Jase, cóż, użyłem tego terminu w pewnym sensie, o który poprosił OP, tj. Znaleźć znaczący związek statystyczny.
mpiktas
3

Gdy masz serię wspierającą / przyczynową / pomocniczą / prawostronną / egzogeniczną / predyktorową, preferowane jest podejście polegające na skonstruowaniu pojedynczego równania, funkcji przenoszenia z wieloma wejściami. Trzeba zbadać możliwe resztki modelu zarówno dla nieokreślonych / pominiętych deterministycznych danych wejściowych, tj. Zrobić wykrywanie interwencji ala Ruey Tsay 1988 Journal of Forecasting i nieokreślonych danych stochastycznych za pośrednictwem komponentu ARIMA. W ten sposób możesz jawnie uwzględnić nie tylko sugerowane przez użytkownika przyczyny (i wszelkie potrzebne opóźnienia!), Ale dwa rodzaje pominiętych struktur (atrapy i ARIMA).

Należy zadbać o to, aby parametry ostatecznego modelu nie zmieniały się znacząco w czasie, w przeciwnym razie segmentacja danych może być w porządku i że nie można udowodnić, że reszty z ostatecznego modelu mają niejednorodną wariancję.

Tendencja w pierwotnej serii może wynikać z trendów w serii predyktorów lub z powodu autoregresji dynamiki w danej serii lub potencjalnie z powodu pominiętej serii deterministycznej, której towarzyszy stała stała lub nawet jeden lub więcej trendów czasu lokalnego.

IrishStat
źródło
0

Z mniej technicznego punktu widzenia często nie jest bardzo pomocne wyjaśnienie trendu; to znaczy traktować czas jako predyktor głównego interesu. Zróżnicowanie serii w czasie często implikuje podstawowe skutki innych zmiennych, w tym procesów autoregresyjnych i / lub egzogenicznych, co jest bardziej istotne z punktu widzenia koncepcji do zbadania. Wynika z tego, że jeśli zmienne te również zmieniają się w czasie, to w rzeczywistości kontrola wpływu czasu jest w rzeczywistości konieczna, aby nie wpaść w sztucznie istotny związek, jak pokazał @mpiktas.

NonSleeper
źródło