Dlaczego moje modele VAR działają lepiej z danymi niestacjonarnymi niż z danymi stacjonarnymi?

9

Używam biblioteki VAR Pytsmodels do modelowania danych finansowych szeregów czasowych, a niektóre wyniki mnie zastanawiają. Wiem, że modele VAR zakładają, że dane szeregów czasowych są nieruchome. Nieumyślnie dopasowałem niestacjonarną serię cen logów dla dwóch różnych papierów wartościowych i, co zaskakujące, dopasowane wartości i prognozy w próbie były bardzo dokładne z relatywnie niewielkimi, stacjonarnymi resztkami. TheR2) na podstawie prognozy w próbie wyniósł 99%, a odchylenie standardowe prognozowanych serii rezydualnych wyniosło około 10% wartości prognozowanych.

Jednak, kiedy różnicuję ceny dziennika i dopasowuję te szeregi czasowe do modelu VAR, wartości dopasowania i prognozy są daleko od kreski, odbijając się w wąskim przedziale wokół średniej. W rezultacie reszty wykonują lepszą pracę prognozując zwroty dziennika niż wartości dopasowane, przy odchyleniu standardowym prognozowanych reszt 15X większych niż dopasowane serie danych a .007R2) wartość dla serii prognoz.

Czy źle interpretuję dopasowanie w stosunku do resztek w modelu VAR, czy popełniam jakiś inny błąd? Dlaczego niestacjonarne szeregi czasowe miałyby dawać dokładniejsze przewidywania niż stacjonarne oparte na tych samych podstawowych danych? Sporo pracowałem z modelami ARMA z tej samej biblioteki Pythona i nie widziałem nic takiego jak modelowanie danych pojedynczej serii.

jpeginternet
źródło
5
Dwa fakty: (1) Kiedy regresujesz jeden losowy spacer na innym losowym spacerze i niepoprawnie zakładasz stacjonarność, prawie zawsze otrzymujesz wysoce statystycznie znaczące wyniki, nawet jeśli są to niezależne procesy! . (2) Jeśli dwie zmienne są zintegrowane , możesz regresować jedną po drugiej, a estymator zbiega się szybciej niż zwykła regresja, wynik znany jako superkonsekwencja.
Matthew Gunn
Dziękuję Ci bardzo. Fakt nr 1 z pewnością wyjaśnia wyniki dla serii niestacjonarnych. Wyniki z serii stacjonarnych z pewnością zachowują się tak, jakby pokazywały to, co nazywasz superkonsekwencją, z wyjątkiem tego, że, o ile wiem, obie serie nie są ze sobą zintegrowane. Przeprowadziłem regresję liniową dla dwóch serii cen, a reszty były dalekie od stacjonarnych. Musiałbym więc założyć, że model VAR tak słabo prognozuje, ponieważ dwie serie zwrotne nie są silnie skorelowane automatycznie. Test Granger również to potwierdza.
jpeginternet
@MatthewGunn, twój komentarz może lepiej pasować jako odpowiedź.
Richard Hardy,

Odpowiedzi:

9

Dwa fakty:

  1. Kiedy regresujesz jeden losowy spacer na innym losowym spacerze i niepoprawnie zakładasz stacjonarność, twoje oprogramowanie generalnie wyśle ​​statystycznie znaczące wyniki, nawet jeśli są to niezależne procesy! Na przykład zobacz te notatki z wykładu. (Google na fałszywy losowy spacer i pojawi się wiele linków.) Co się dzieje? Zwykłe oszacowanie OLS i standardowe błędy oparte są na założeniach, które nie są prawdziwe w przypadku przypadkowych spacerów.

    Udawanie, że mają zastosowanie zwykłe założenia OLS, i regresowanie dwóch niezależnych losowych spacerów na ogół prowadzi do regresji z ogromnymi R2), bardzo znaczące współczynniki, a wszystko to całkowicie fałszywe! Gdy dojdzie do przypadkowego przejścia i nastąpi regresja poziomów, zostaną naruszone zwykłe założenia dotyczące OLS, twoje szacunki nie są zbieżne, ponieważt, zwykłe centralne twierdzenie o granicy nie ma zastosowania, a statystyki t i wartości p wyrzucone przez regresję są błędne .

  2. Jeśli dwie zmienne są zintegrowane , możesz regresować jedną po drugiej, a estymator zbiega się szybciej niż zwykła regresja, wynik znany jako superkonsekwencja. Na przykład. przejrzyj książkę John Cochrane Time Series online i wyszukaj „superkonsekwentny”.

Matthew Gunn
źródło