Rozumiem, że stacjonarne szeregi czasowe to takie, których średnia i wariancja jest stała w czasie. Czy ktoś może wyjaśnić, dlaczego musimy upewnić się, że nasz zestaw danych jest stacjonarny, zanim będziemy mogli uruchamiać na nim różne modele ARIMA lub ARM? Czy dotyczy to również modeli regresji normalnej, w których autokorelacja i / lub czas nie są czynnikiem?
92
Odpowiedzi:
Stacjonarność jest jednym rodzajem struktury zależności.
Załóżmy, że mamy dane . Najbardziej podstawowym założeniem jest to, że są niezależne, tzn. Mamy próbkę. Niezależność jest przyjemną właściwością, ponieważ dzięki niej możemy uzyskać wiele przydatnych wyników. Problem polega na tym, że czasami (lub często, w zależności od widoku) ta właściwość się nie utrzymuje.X iX1, . . . , Xn Xja
Teraz niezależność jest unikalną właściwością, dwie zmienne losowe mogą być niezależne tylko w jeden sposób, ale mogą być zależne na różne sposoby. Zatem stacjonarność jest jednym ze sposobów modelowania struktury zależności. Okazuje się, że wiele ładnych wyników, które dotyczą niezależnych zmiennych losowych (prawo dużych liczb, centralne twierdzenie graniczne, aby wymienić tylko kilka), dotyczy stacjonarnych zmiennych losowych (należy ściśle powiedzieć o sekwencjach). I oczywiście okazuje się, że wiele danych można uznać za stacjonarne, więc koncepcja stacjonarności jest bardzo ważna w modelowaniu danych niezależnych.
Kiedy ustalimy, że mamy stacjonarność, naturalnie chcemy ją modelować. W tym miejscu pojawiają się modele ARMA. Okazuje się, że dowolne dane stacjonarne można aproksymować za pomocą stacjonarnego modelu ARMA, dzięki twierdzeniu Wolda o rozkładzie . Dlatego właśnie modele ARMA są bardzo popularne i dlatego musimy upewnić się, że seria jest stacjonarna, aby korzystać z tych modeli.
Teraz znowu ta sama historia dotyczy niezależności i zależności. Stacjonarność jest definiowana jednoznacznie, tzn. Dane są stacjonarne lub nie, więc istnieje tylko jeden sposób, aby dane były nieruchome, ale istnieje wiele sposobów, aby były niestacjonarne. Ponownie okazuje się, że po pewnej transformacji wiele danych staje się stacjonarnych. Model ARIMA to jeden model niestacjonarności. Zakłada się, że dane stają się nieruchome po różnicowaniu.
W kontekście regresji stacjonarność jest ważna, ponieważ te same wyniki, które dotyczą niezależnych danych, zachowują się, jeśli dane są nieruchome.
źródło
Jakimi wielkościami zazwyczaj jesteśmy zainteresowani, gdy przeprowadzamy analizę statystyczną w szeregu czasowym? Chcemy wiedzieć
Jak obliczamy te rzeczy? Używanie średniej z wielu okresów.
Średnia z wielu okresów ma charakter informacyjny tylko wtedy, gdy oczekiwana wartość jest taka sama dla tych okresów. Jeśli te parametry populacji mogą się różnić, co tak naprawdę szacujemy, biorąc średnią w czasie?
(Słaba) stacjonarność wymaga, aby te populacje były takie same w czasie, co czyni średnią próbną rozsądnym sposobem ich oszacowania.
Ponadto stacjonarne procesy pozwalają uniknąć problemu fałszywej regresji .
źródło
Podstawową ideą uczenia statystycznego jest to, że możesz się uczyć powtarzając eksperyment. Na przykład możemy ciągle przewracać pinezkę, aby dowiedzieć się, jakie prawdopodobieństwo wyląduje na jej głowie.
W kontekście szeregów czasowych obserwujemy pojedynczy przebieg procesu stochastycznego zamiast powtarzanych przebiegów procesu stochastycznego. Obserwujemy 1 długi eksperyment zamiast wielu niezależnych eksperymentów.
Potrzebujemy stacjonarności i ergodyczności, aby obserwowanie długiego przebiegu procesu stochastycznego było podobne do obserwowania wielu niezależnych przebiegów procesu stochastycznego.
Niektóre (nieprecyzyjne) definicje
NiechΩ będzie przestrzenią próbki. Proces stochastyczny { Yt} jest funkcją zarówno czasu t ∈ { 1 , 2 , 3 , … } i wyniku ω ∈ Ω .
Podstawowa kwestia w szeregach czasowych
W Statistics 101 nauczono nas o szeregu niezależnych i identycznie rozmieszczonych zmiennychX1 , X2) , X3) itd. Obserwujemy wiele identycznych eksperymentów i = 1 , … , n gdzie ωja∈ Ω jest losowe wybrany, a to pozwala nam dowiedzieć się o zmiennej losowej X . Zgodnie z prawem wielkich liczb mamy 1n∑ni=1Xi prawie na pewno zbliżamy się doE[X] .
Fundamentalna różnica w ustawieniu szeregów czasowych polega na tym, że obserwujemy wiele obserwacji w czasiet a nie wiele losowań z Ω .
W ogólnym przypadku1T∑Tt=1Yt może w ogóle nie być zbieżny!
Do wielokrotnych obserwacji w czasie, aby osiągnąć podobne zadanie, jak wielokrotne pobieranie z przestrzeni próbki , potrzebujemy stacjonarności i ergodyczności .
Jeśli istnieje bezwarunkowa średniaE[Y] i spełnione są warunki dla twierdzenia ergodycznego, szeregi czasowe, średnia próbki 1T∑Tt=1Yt zbiegnie się do bezwarunkowej średniejE[Y] .
Przykład 1: awaria stacjonarności
Niech{ Yt} będzie zdegenerowanym procesem Yt= t . Możemy zobaczyć, że { Yt} jest nieruchomy (łącznego rozkładu nie jest niezmienna w czasie).
NiechS.t= 1t∑ti = 1Yja jest próbka w czasie serii znaczy, i jest oczywiste, żeS.t nie zbiegają się cokolwiek wt → ∞ :S.1= 1 , S.2)= 32), S3)= 2 , … , St= t + 12) . ŚredniaYt nie istnieje, aS.t nie zbiega się z niczym, jakt → ∞ .
Przykład: niepowodzenie ergodyczności
NiechX będzie wynikiem jednego rzutu monetą. Niech Yt= X dla wszystkich t , czyli { Yt} = ( 0 , 0 , 0 , 0 , 0 , 0 , 0 , … ) lub { Yt} = ( 1 , 1 , 1 , 1 , 1 , 1 , 1 , … .
Mimo żemi[ Yt] = 12) , średnia próbka szeregów czasowychS.t= 1t∑ti = 1Yja nie daje średniąYt .
źródło
Aby dodać odpowiedź wysokiego poziomu do niektórych innych odpowiedzi, które są dobre, ale bardziej szczegółowe, stacjonarność jest ważna, ponieważ w przypadku jej braku model opisujący dane będzie różny pod względem dokładności w różnych punktach czasowych. Jako taka, statystyka jest wymagana dla przykładowych statystyk, takich jak średnie, wariancje i korelacje, aby dokładnie opisać dane we wszystkich punktach czasowych.
źródło
Często jednak szukamy stacjonarności. Dlaczego?
Rozważ problem z prognozowaniem. Jak prognozujesz? Jeśli jutro wszystko będzie inne, nie da się przewidzieć, ponieważ wszystko będzie inne. Tak więc kluczem do prognozowania jest znaleźć coś, że będą takie same jutro i przedłużyć że do jutra. Że coś może być wszystkim. Dam ci kilka przykładów.
Do prognozowania absolutnie musimy znaleźć składnik stały (niezmienny w czasie) w szeregu, w przeciwnym razie nie da się przewidzieć z definicji. Stacjonarność jest tylko szczególnym przypadkiem niezmienniczości.
źródło
Ponieważ ARIMA w większości się regresuje, stosuje rodzaj samo-indukowanej wielokrotnej regresji, na którą niepotrzebnie wpływałby silny trend lub sezonowość. Ta technika wielokrotnej regresji opiera się na poprzednich wartościach szeregów czasowych, szczególnie tych z ostatnich okresów, i pozwala nam wyodrębnić bardzo interesującą „wzajemną zależność” między wieloma przeszłymi wartościami, które działają w celu wyjaśnienia przyszłej wartości.
źródło
Idea stacjonarności modelu ARMA jest ściśle związana z ideą odwracalności.
źródło
ARMA i ARIMA są budowane przy założeniu, że seria jest stacjonarna. Jeśli seria nie jest, to prognoza będzie niepoprawna.
Przykładowe statystyki - średnia, wariancja, korelacja - są przydatne jako deskryptory przyszłych zachowań tylko wtedy, gdy seria jest stacjonarna. Na przykład, jeśli seria stale rośnie w czasie, średnia próbki i wariancja będą rosły wraz z rozmiarem próbki i zawsze będą zaniżać średnią i wariancję w przyszłych okresach. Ważne jest zachowanie ostrożności podczas ekstrapolacji modeli regresji dopasowanych do danych niestacjonarnych.
źródło
Moim zdaniem proces stochastyczny jest procesem, który rządzi się trzema właściwościami statystycznymi, które muszą być zmienne w czasie. Są to średnie wariancje i funkcja autokorelacji. Chociaż pierwsze dwa nie mówią nic o ewolucji procesu w czasie, więc należy wziąć pod uwagę trzecią właściwość, która jest funkcją autokorelacji, która mówi, jak rozpada się zależność w miarę upływu czasu (opóźnienia).
źródło
Aby rozwiązać cokolwiek, musimy modelować równania matematycznie za pomocą statyki.
Podczas procesu konwersji uzyskamy trend i sezonowość
źródło