Ekstrapolacja regresji liniowej na szeregu czasowym, gdzie czas jest jedną z niezależnych zmiennych w regresji. Regresja liniowa może przybliżać szereg czasowy w krótkiej skali czasowej i może być przydatna w analizie, ale ekstrapolacja linii prostej jest głupotą. (Czas jest nieskończony i stale rośnie).
EDYCJA: W odpowiedzi na pytanie naught101 o „głupie”, moja odpowiedź może być błędna, ale wydaje mi się, że większość zjawisk w świecie rzeczywistym nie rośnie ani nie maleje na zawsze. Większość procesów ma czynniki ograniczające: ludzie przestają rosnąć wraz z wiekiem, zapasy nie zawsze rosną, populacje nie mogą być ujemne, nie można wypełnić domu miliardem szczeniąt itp. Czas, w przeciwieństwie do większości niezależnych zmiennych pamiętam, ma nieskończone wsparcie, więc naprawdę możesz sobie wyobrazić swój model liniowy przewidujący cenę akcji Apple za 10 lat, ponieważ za 10 lat na pewno będzie istnieć. (Podczas gdy nie dokonałbyś ekstrapolacji regresji wzrost-waga, aby przewidzieć masę 20-metrowych dorosłych mężczyzn: nie istnieją i nie będą istnieć.)
Ponadto szeregi czasowe często zawierają elementy cykliczne lub pseudocykliczne lub elementy losowego przejścia. Jak wspomina IrishStat w swojej odpowiedzi, należy wziąć pod uwagę sezonowość (czasami sezonowość w wielu skalach czasowych), przesunięcia poziomów (które zrobią dziwne rzeczy dla regresji liniowych, które ich nie uwzględniają), itp. Regresja liniowa, która ignoruje cykle pasują w krótkim okresie, ale bądź bardzo mylące, jeśli je ekstrapolujesz.
Oczywiście możesz mieć kłopoty za każdym razem, gdy dokonujesz ekstrapolacji, szeregów czasowych lub nie. Wydaje mi się jednak, że zbyt często widzimy, jak ktoś wrzuca szereg czasowy (przestępstwa, ceny akcji itp.) Do Excela, upuszcza na nim PROGNOZĘ lub NAJNOWSZY i prognozuje przyszłość zasadniczo w linii prostej, tak jakby ceny akcji stale rosły (lub stale spadają, w tym stają się ujemne).
Zwracanie uwagi na korelację między dwoma niestacjonarnymi szeregami czasowymi. (Nie jest niespodzianką, że będą one miały wysoki współczynnik korelacji: wyszukaj „korelację bezsensowną” i „kointegrację”).
Na przykład w Google korelate psy i kolczyki w uszach mają współczynnik korelacji wynoszący 0,84.
Aby zapoznać się ze starszą analizą, zobacz eksplorację problemu przez Yule z 1926 r
źródło
x<-seq(0,100,0.001); cor(sin(x)+rnorm(100001), cos(x)+rnorm(100001)) == 0.002554309
Na najwyższym poziomie Kołmogorow uznał niezależność za kluczowe założenie w statystyce - bez założenia, wiele ważnych wyników w statystyce nie jest prawdą, niezależnie od tego, czy dotyczą one szeregów czasowych, czy bardziej ogólnych zadań analitycznych.
Kolejne lub pobliskie próbki w większości rzeczywistych sygnałów dyskretnych nie są niezależne, dlatego należy zachować ostrożność, aby rozłożyć proces na model deterministyczny i składową szumu stochastycznego. Mimo to założenie niezależnego inkrementu w klasycznym rachunku stochastycznym jest problematyczne: przypomnijmy ekon Nobla z 1997 r. I implozję LTCM z 1998 r., Która zaliczała laureatów do swoich dyrektorów (choć uczciwie, zarządzający funduszem Merrywhether jest bardziej winny niż ilościowy) metody).
źródło
Będąc zbyt pewnym wyników swojego modelu, ponieważ używasz techniki / modelu (takiego jak OLS), który nie uwzględnia autokorelacji szeregów czasowych.
Nie mam ładnego wykresu, ale książka „Introductory Time Series with R” (2009, Cowpertwait, i in.) Daje rozsądne intuicyjne wyjaśnienie: jeśli istnieje dodatnia autokorelacja, wartości powyżej lub poniżej średniej będą się utrzymywać i zgrupować się w czasie. Prowadzi to do mniej wydajnego oszacowania średniej, co oznacza, że potrzebujesz więcej danych do oszacowania średniej z tą samą dokładnością, niż gdyby nie było zerowej autokorelacji. Rzeczywiście masz mniej danych, niż ci się wydaje.
Proces OLS (a zatem ty) zakładasz, że nie ma autokorelacji, więc zakładasz również, że oszacowanie średniej jest dokładniejsze (dla ilości danych, które masz) niż w rzeczywistości. W rezultacie jesteś bardziej pewny swoich wyników niż powinieneś.
(Może to działać w drugą stronę w przypadku ujemnej autokorelacji: twoje oszacowanie średniej jest w rzeczywistości bardziej wydajne niż byłoby inaczej. Nie mam na to dowodów, ale sugerowałbym, że pozytywna korelacja jest bardziej powszechna w większości realnych czasów korelacja szeregowa niż ujemna).
źródło
Wpływ przesunięć poziomu, pulsów sezonowych i lokalnych trendów czasowych ... oprócz impulsów jednorazowych. Zmiany parametrów w czasie są ważne do zbadania / modelowania. Należy zbadać możliwe zmiany wariancji błędów w czasie. Jak ustalić, w jaki sposób na Y wpływają równoczesne i opóźnione wartości X. Jak ustalić, czy przyszłe wartości X mogą wpłynąć na bieżące wartości Y. Jak dowiedzieć się, z poszczególnych dni miesiąca mają wpływ. Jak modelować problemy o mieszanej częstotliwości, w których dane godzinowe mają wpływ na wartości dzienne?
nic nie poprosiło mnie o podanie bardziej szczegółowych informacji / przykładów dotyczących przesunięć poziomów i pulsów. W tym celu dołączam teraz więcej dyskusji. Seria, która wykazuje ACF sugerujący niestacjonarność, w rzeczywistości dostarcza „objaw”. Jednym sugerowanym rozwiązaniem jest „różnicowanie” danych. Lekceważonym lekarstwem jest „usunięcie danych” z danych. Jeśli seria ma „duże” przesunięcie poziomu w średniej (tj. Interpretacji), acf całej serii może być łatwo źle zinterpretowany, co sugeruje różnicowanie. Pokażę przykład serii, która wykazuje zmianę poziomu. Gdybym podkreślił (powiększył) różnicę między tymi dwoma, oznacza, że acf całej serii sugeruje (niepoprawnie!) Potrzebę różnicy. Nieleczone impulsy / przesunięcia poziomu / sezonowe impulsy / lokalne trendy czasowe zwiększają wariancję błędów zaciemniających znaczenie struktury modelu i są przyczyną wadliwych oszacowań parametrów i złych prognoz. Teraz przejdźmy do przykładu. Thto lista 27 miesięcznych wartości. To jest wykres . Istnieją cztery impulsy i 1 zmiana poziomu ORAZ BRAK TRENDU! a . Resztki z tego modelu sugerują proces białego szumu . Niektóre (najbardziej!) Komercyjne, a nawet darmowe pakiety prognostyczne zapewniają następującą głupotę w wyniku przyjęcia modelu trendu z dodatkowymi czynnikami sezonowymi . Kończąc i parafrazując Marka Twaina. „Są bzdury i są bzdury, ale najbardziej bezsensowną bzdurą ze wszystkich są bzdury statystyczne!” w porównaniu do bardziej rozsądnego . Mam nadzieję że to pomoże !
źródło
Definiowanie trendu jako wzrostu liniowego w czasie.
Chociaż niektóre trendy są w pewien sposób liniowe (patrz cena akcji Apple) i chociaż wykres szeregów czasowych wygląda jak wykres liniowy, na którym można znaleźć regresję liniową, większość trendów nie jest liniowa.
Są zmiany Step, takie jak zmiany, gdy coś się wydarzyło w określonym momencie, który zmienił zachowanie pomiaru ( „Most się zawalił i od tego czasu nie przejeżdżają przez niego żadne samochody ”).
Innym popularnym trendem jest „Buzz” - wykładniczy wzrost i podobny gwałtowny spadek później ( „Nasza kampania marketingowa była ogromnym sukcesem, ale efekt zniknął po kilku tygodniach” ).
Znajomość odpowiedniego modelu (regresji logistycznej itp.) Trendu w szeregach czasowych jest kluczowa w zdolności do wykrycia go w danych szeregów czasowych.
źródło
Oprócz kilku wspaniałych punktów, o których już wspomniano, dodałbym:
Problemy te nie są związane z zastosowanymi metodami statystycznymi, ale z projektem badania, tj. Które dane należy uwzględnić i jak oceniać wyniki.
Trudna część z punktu 1. polega na upewnieniu się, że zaobserwowaliśmy wystarczający okres danych, aby wyciągnąć wnioski na temat przyszłości. Podczas mojego pierwszego wykładu na temat szeregów czasowych profesor narysował długą krzywą zatoki na tablicy i wskazał, że długie cykle wyglądają jak trendy liniowe, gdy są obserwowane w krótkim oknie (całkiem proste, ale lekcja utknęła we mnie).
Punkt 2 jest szczególnie istotny, jeśli błędy twojego modelu mają pewne praktyczne implikacje. Między innymi jest szeroko stosowany w finansach, ale argumentowałbym, że ocena błędów prognozowania w poprzednich okresach ma sens w przypadku wszystkich modeli szeregów czasowych, w których pozwalają na to dane.
Punkt 3. ponownie dotyczy tematu, która część przeszłych danych jest reprezentatywna na przyszłość. To złożony temat z dużą ilością literatury - jako przykład podam mojego ulubionego: cukinię i MacDonalda .
źródło
Unikaj aliasu w próbkach szeregów czasowych. Jeśli analizujesz dane szeregów czasowych, które są próbkowane w regularnych odstępach czasu, wówczas częstotliwość próbkowania musi być dwa razy większa niż częstotliwość składowej najwyższej częstotliwości w próbkowanych danych. Jest to teoria próbkowania Nyquista, która dotyczy dźwięku cyfrowego, ale także dowolnych szeregów czasowych próbkowanych w regularnych odstępach czasu. Sposobem na uniknięcie aliasingu jest odfiltrowanie wszystkich częstotliwości powyżej częstotliwości nyquista, która stanowi połowę częstotliwości próbkowania. Na przykład w przypadku dźwięku cyfrowego częstotliwość próbkowania 48 kHz będzie wymagać filtra dolnoprzepustowego z odcięciem poniżej 24 kHz.
Efekt aliasingu można zaobserwować, gdy koła wydają się wirować do tyłu, ze względu na efekt strobiscopic, w którym szybkość strobowania jest bliska prędkości obrotowej koła. Obserwowane wolne tempo jest aliasem rzeczywistego tempa obrotów.
źródło