Używam biblioteki VAR Pytsmodels do modelowania danych finansowych szeregów czasowych, a niektóre wyniki mnie zastanawiają. Wiem, że modele VAR zakładają, że dane szeregów czasowych są nieruchome. Nieumyślnie dopasowałem niestacjonarną serię cen logów dla dwóch różnych papierów wartościowych i, co zaskakujące, dopasowane wartości i prognozy w próbie były bardzo dokładne z relatywnie niewielkimi, stacjonarnymi resztkami. The na podstawie prognozy w próbie wyniósł 99%, a odchylenie standardowe prognozowanych serii rezydualnych wyniosło około 10% wartości prognozowanych.
Jednak, kiedy różnicuję ceny dziennika i dopasowuję te szeregi czasowe do modelu VAR, wartości dopasowania i prognozy są daleko od kreski, odbijając się w wąskim przedziale wokół średniej. W rezultacie reszty wykonują lepszą pracę prognozując zwroty dziennika niż wartości dopasowane, przy odchyleniu standardowym prognozowanych reszt 15X większych niż dopasowane serie danych a .007 wartość dla serii prognoz.
Czy źle interpretuję dopasowanie w stosunku do resztek w modelu VAR, czy popełniam jakiś inny błąd? Dlaczego niestacjonarne szeregi czasowe miałyby dawać dokładniejsze przewidywania niż stacjonarne oparte na tych samych podstawowych danych? Sporo pracowałem z modelami ARMA z tej samej biblioteki Pythona i nie widziałem nic takiego jak modelowanie danych pojedynczej serii.
źródło
Odpowiedzi:
Dwa fakty:
Kiedy regresujesz jeden losowy spacer na innym losowym spacerze i niepoprawnie zakładasz stacjonarność, twoje oprogramowanie generalnie wyśle statystycznie znaczące wyniki, nawet jeśli są to niezależne procesy! Na przykład zobacz te notatki z wykładu. (Google na fałszywy losowy spacer i pojawi się wiele linków.) Co się dzieje? Zwykłe oszacowanie OLS i standardowe błędy oparte są na założeniach, które nie są prawdziwe w przypadku przypadkowych spacerów.
Udawanie, że mają zastosowanie zwykłe założenia OLS, i regresowanie dwóch niezależnych losowych spacerów na ogół prowadzi do regresji z ogromnymiR2) , bardzo znaczące współczynniki, a wszystko to całkowicie fałszywe! Gdy dojdzie do przypadkowego przejścia i nastąpi regresja poziomów, zostaną naruszone zwykłe założenia dotyczące OLS, twoje szacunki nie są zbieżne, ponieważt → ∞ , zwykłe centralne twierdzenie o granicy nie ma zastosowania, a statystyki t i wartości p wyrzucone przez regresję są błędne .
Jeśli dwie zmienne są zintegrowane , możesz regresować jedną po drugiej, a estymator zbiega się szybciej niż zwykła regresja, wynik znany jako superkonsekwencja. Na przykład. przejrzyj książkę John Cochrane Time Series online i wyszukaj „superkonsekwentny”.
źródło