Związek i różnica między szeregami czasowymi a regresją?

12

Jakie są zależności i różnice między szeregami czasowymi a regresją?

Czy w przypadku modeli i założeń jest prawdą, że modele regresji zakładają niezależność między zmiennymi wyjściowymi dla różnych wartości zmiennej wejściowej, podczas gdy model szeregów czasowych nie? Jakie są inne różnice?

Dla metod , od strony internetowej przez Darlington

Istnieje wiele podejść do analizy szeregów czasowych, ale dwie najbardziej znane to metoda regresji i metoda Boxa-Jenkinsa (1976) lub ARIMA (AutoRegressive Integrated Moving Average). W tym dokumencie opisano metodę regresji. Uważam, że metoda regresji jest znacznie lepsza niż ARIMA z trzech głównych powodów

Nie do końca rozumiem, co „metoda regresji” dla szeregów czasowych znajduje się na stronie internetowej i czym różni się od metody Box-Jenkins lub ARIMA. Doceniam, czy ktoś może wniknąć w te pytania.

Dziękuję i pozdrawiam!

Tim
źródło
2
Większość odpowiedzi i komentarzy tutaj koncentruje się na bardziej szczegółowych pytaniach pod koniec. To tylko flaga, że ​​analiza szeregów czasowych jest o wiele, wiele więcej niż Box-Jenkins lub ARIMA. Całe pola analizy szeregów czasowych mają zupełnie inne (lub przynajmniej bardziej ogólne) ukierunkowanie. Nieobserwowane modele komponentów to tylko jeden z kilku przykładów.
Nick Cox,

Odpowiedzi:

17

Naprawdę uważam, że to dobre pytanie i zasługuje na odpowiedź. Podany link jest napisany przez psychologa, który twierdzi, że jakaś metoda domowego zaparzania jest lepszym sposobem analizy szeregów czasowych niż Box-Jenkins. Mam nadzieję, że moja próba odpowiedzi zachęci innych, którzy mają większą wiedzę na temat szeregów czasowych, do wniesienia wkładu.

Z jego wprowadzenia wygląda na to, że Darlington opowiada się za dopasowaniem modelu AR do najmniejszych kwadratów. Oznacza to, że jeśli chcesz dopasować model do szeregu , możesz po prostu serię w szeregu za pomocą opóźnienie , opóźnienie i tak dalej do opóźnienia , przy użyciu zwykłej regresji wielokrotnej. Z pewnością jest to dozwolone; w R jest nawet opcją w funkcji. Przetestowałem to i zwykle daje podobne odpowiedzi do domyślnej metody dopasowania modelu AR w R.z t z t 1 2 k

zt=α1zt1++αkztk+εt
ztzt12kar

Opowiada się również za regresją na rzeczach takich jak lub potęgach aby znaleźć trendy. Ponownie, jest to absolutnie w porządku. Wiele książek o seriach czasowych omawia to, na przykład Shumway-Stoffer i Cowpertwait-Metcalfe. Zazwyczaj analiza szeregów czasowych może przebiegać według następujących linii: znajdziesz trend, usuniesz go, a następnie dopasujesz model do reszt. t tzttt

Wygląda jednak na to, że opowiada się również za nadmiernym dopasowaniem, a następnie wykorzystuje zmniejszenie błędu średniego kwadratu między dopasowanymi seriami a danymi jako dowód, że jego metoda jest lepsza. Na przykład:

Wydaje mi się, że korelogramy są już przestarzałe. Ich głównym celem było umożliwienie pracownikom odgadnięcia, które modele najlepiej pasują do danych, ale szybkość współczesnych komputerów (przynajmniej w regresji, jeśli nie w dopasowaniu modeli szeregów czasowych) pozwala pracownikowi po prostu dopasować kilka modeli i zobaczyć dokładnie, jak każdy pasuje, mierzony średnim błędem do kwadratu. [Kwestia kapitalizacji przypadkowej nie ma znaczenia dla tego wyboru, ponieważ obie metody są równie podatne na ten problem.]

To nie jest dobry pomysł, ponieważ testem modelu ma być to, jak dobrze potrafi prognozować, a nie jak dobrze pasuje do istniejących danych. W swoich trzech przykładach stosuje „skorygowany błąd średniokwadratowy pierwiastka” jako swoje kryterium jakości dopasowania. Oczywiście, nadmierne dopasowanie modelu spowoduje, że oszacowanie błędu w próbie będzie mniejsze, więc jego twierdzenie, że jego modele są „lepsze”, ponieważ mają mniejsze RMSE, jest błędne.

Krótko mówiąc, ponieważ stosuje niewłaściwe kryterium oceny, jak dobry jest model, dochodzi do błędnych wniosków dotyczących regresji w porównaniu z ARIMA. Założę się, że gdyby zamiast tego przetestował zdolność predykcyjną modeli, ARIMA wypadłaby na pierwszym miejscu. Być może ktoś może spróbować, jeśli ma dostęp do książek, o których tu wspomina .

[Uzupełnienie: aby uzyskać więcej informacji na temat regresji, warto zapoznać się ze starszymi książkami z serii czasowych, które zostały napisane, zanim ARIMA stała się najbardziej popularna. Na przykład Kendall, Time-Series , 1973, rozdział 11 zawiera cały rozdział na temat tej metody i porównań z ARIMA.]

Flądrarz
źródło
Pytanie brzmi: jakie są (nieodłączne) różnice?
hbaghishani
O ile mogę powiedzieć, autor nigdy nie opisał swojej metody warzenia piwa w recenzowanej publikacji, a odniesienia do i z literatury statystycznej wydają się minimalne, a jego główne publikacje na tematy metodologiczne sięgają lat 70. Ściśle mówiąc, nic z tego „nie udowadnia” niczego, ale bez wystarczającej ilości czasu i wiedzy, aby samemu ocenić roszczenia, bardzo niechętnie skorzystam z któregokolwiek z nich.
Gala
@hbaghishani zasadniczą różnicą jest to, że autokorelowane dane, tj. w obrębie każdej serii zniekształcają interpretację korelacji krzyżowej. Ponadto należy uwzględnić / skorygować naruszenia Gaussa, np. Stała średnia errosów, stała wariancja w czasie, stałe parametry w czasie.
IrishStat
@flounderer Ludzie piszą podręczniki, aby je sprzedawać i zbierać nagrody. Czasami zawierają one metody anachroniczne, które są niewłaściwie nauczane, ponieważ wcześniej uznano je za prawidłowe. Aby zwiększyć sprzedaż, wydawca często wymaga (z własnego doświadczenia) przestarzałej, ale niepoprawnej metodologii, ponieważ metody te znajdują się w programie nauczania.
IrishStat
@IrishStat modelowanie autokorelowanych danych można przeprowadzić za pomocą modeli regresji dynamicznej. Również inne modele, takie jak modele mieszane, mogą być wykorzystane do takich danych. Nie sądzę więc, aby ta funkcja była istotną różnicą.
hbaghishani
7

E. Parzen, być może nieco zazdrosny, że nie zaproponował innowacyjnych metod Boxa i Jenkinsa, zasugerował takie podejście polegające na nadmiernym dopasowaniu, a następnie ustąpieniu. Nie udaje się to z wielu powodów (z których wiele Flądrowiec dobrze podsumował), w tym nie identyfikuje i nie koryguje pulsów, przesunięć poziomów, pulsów sezonowych i trendów czasu lokalnego. Ponadto należy wziąć pod uwagę zmiany parametrów w czasie lub zmiany wariancji błędów w czasie.

Napisałem artykuł, który może Cię zainteresować. Nazywa się „Regresja kontra Box-Jenkins” i jest dostępny na stronie http://www.autobox.com/cms/index.php/afs-university/intro-to-forecasting / doc_download / 24-regression-vs-box-jenkins

Jeden komentarz na temat procedury Darlingtona odzwierciedlający czas, czas * czas, czas * czas * czas * czas jako predyktory. W przypadku braku Wykrywania Interwencji prowadzącego do izolacji efektów odstających, jest całkiem możliwe (i niepoprawne!) Wnioskowanie o wyższych potęgach czasu. Strzeż się statystystów wykonujących analizy statystyczne, ponieważ będziesz uważał na statystów wykonujących operacje mózgu. W uczciwości można również dodać, że należy uważać na statystyków / matematyków szeregów czasowych próbujących przeprowadzić analizę szeregów czasowych przy ograniczonym przeszkoleniu w zakresie analizy szeregów czasowych.

Inne plakaty (szczególnie whuber) na tej liście wielokrotnie ostrzegały przed stosowaniem tego „dopasowanego podejścia”, głównie w ustawieniach jednowymiarowych. To ostrzeżenie dotyczy również modeli przyczynowych.

Mam nadzieję że to pomoże.

IrishStat
źródło