Pułapki w analizie szeregów czasowych

46

Zaczynam dopiero od samodzielnego uczenia się w analizie szeregów czasowych. Zauważyłem, że istnieje wiele potencjalnych pułapek, które nie mają zastosowania do statystyk ogólnych. Opierając się na czym są powszechne grzechy statystyczne? , Chciałbym spytać:

Jakie są typowe pułapki lub grzechy statystyczne w analizie szeregów czasowych?

To jest zamierzone jako wiki społeczności, jedna koncepcja na odpowiedź, i proszę, nie powtarzaj bardziej ogólnych pułapek statystycznych, które są (lub powinny być) wymienione w części Jakie są powszechne grzechy statystyczne?

zera101
źródło

Odpowiedzi:

18

Ekstrapolacja regresji liniowej na szeregu czasowym, gdzie czas jest jedną z niezależnych zmiennych w regresji. Regresja liniowa może przybliżać szereg czasowy w krótkiej skali czasowej i może być przydatna w analizie, ale ekstrapolacja linii prostej jest głupotą. (Czas jest nieskończony i stale rośnie).

EDYCJA: W odpowiedzi na pytanie naught101 o „głupie”, moja odpowiedź może być błędna, ale wydaje mi się, że większość zjawisk w świecie rzeczywistym nie rośnie ani nie maleje na zawsze. Większość procesów ma czynniki ograniczające: ludzie przestają rosnąć wraz z wiekiem, zapasy nie zawsze rosną, populacje nie mogą być ujemne, nie można wypełnić domu miliardem szczeniąt itp. Czas, w przeciwieństwie do większości niezależnych zmiennych pamiętam, ma nieskończone wsparcie, więc naprawdę możesz sobie wyobrazić swój model liniowy przewidujący cenę akcji Apple za 10 lat, ponieważ za 10 lat na pewno będzie istnieć. (Podczas gdy nie dokonałbyś ekstrapolacji regresji wzrost-waga, aby przewidzieć masę 20-metrowych dorosłych mężczyzn: nie istnieją i nie będą istnieć.)

Ponadto szeregi czasowe często zawierają elementy cykliczne lub pseudocykliczne lub elementy losowego przejścia. Jak wspomina IrishStat w swojej odpowiedzi, należy wziąć pod uwagę sezonowość (czasami sezonowość w wielu skalach czasowych), przesunięcia poziomów (które zrobią dziwne rzeczy dla regresji liniowych, które ich nie uwzględniają), itp. Regresja liniowa, która ignoruje cykle pasują w krótkim okresie, ale bądź bardzo mylące, jeśli je ekstrapolujesz.

Oczywiście możesz mieć kłopoty za każdym razem, gdy dokonujesz ekstrapolacji, szeregów czasowych lub nie. Wydaje mi się jednak, że zbyt często widzimy, jak ktoś wrzuca szereg czasowy (przestępstwa, ceny akcji itp.) Do Excela, upuszcza na nim PROGNOZĘ lub NAJNOWSZY i prognozuje przyszłość zasadniczo w linii prostej, tak jakby ceny akcji stale rosły (lub stale spadają, w tym stają się ujemne).

Wayne
źródło
Czy możesz wyjaśnić, dlaczego jest to głupie?
naught101
1
+1 za niesamowite przykłady.
Obliczam
3
To świetna ilustracja twojego punktu widzenia: xkcd.com/605
Zach.
1
@naught Mark Twain wykonał świetną robotę, pokazując w najprostszym możliwym języku, dlaczego „głupota” jest odpowiednia do ekstrapolacji liniowej szeregu czasowego.
whuber
I to: stats.stackexchange.com/a/13904/9007 ... Podobnym punktem jest ekstrapolacja trendu wielomianowego (szczególnie wysokiego stopnia) lub dowolnego innego modelu, który nie ma znaczenia fizycznego. Napisałem wpis na blogu o tym, dlaczego to zły pomysł , kiedy uczyłem się oktawy.
naught101
13

Zwracanie uwagi na korelację między dwoma niestacjonarnymi szeregami czasowymi. (Nie jest niespodzianką, że będą one miały wysoki współczynnik korelacji: wyszukaj „korelację bezsensowną” i „kointegrację”).

Na przykład w Google korelate psy i kolczyki w uszach mają współczynnik korelacji wynoszący 0,84.

Aby zapoznać się ze starszą analizą, zobacz eksplorację problemu przez Yule z 1926 r

Wayne
źródło
Oczywiście nie zawsze. x<-seq(0,100,0.001); cor(sin(x)+rnorm(100001), cos(x)+rnorm(100001)) == 0.002554309
naught101
@Wayne Wielkie dzięki za papier Yule. Cytuję to od 1970 roku i nigdy go nie przeczytałem. Jest dobrze znany w niektórych, pozornie małych, kręgach.
IrishStat
7

Na najwyższym poziomie Kołmogorow uznał niezależność za kluczowe założenie w statystyce - bez założenia, wiele ważnych wyników w statystyce nie jest prawdą, niezależnie od tego, czy dotyczą one szeregów czasowych, czy bardziej ogólnych zadań analitycznych.

Kolejne lub pobliskie próbki w większości rzeczywistych sygnałów dyskretnych nie są niezależne, dlatego należy zachować ostrożność, aby rozłożyć proces na model deterministyczny i składową szumu stochastycznego. Mimo to założenie niezależnego inkrementu w klasycznym rachunku stochastycznym jest problematyczne: przypomnijmy ekon Nobla z 1997 r. I implozję LTCM z 1998 r., Która zaliczała laureatów do swoich dyrektorów (choć uczciwie, zarządzający funduszem Merrywhether jest bardziej winny niż ilościowy) metody).

alancalvitti
źródło
„analiza szeregów czasowych” jako kierunek studiów. Zasadniczo mam na myśli wszystko, co może wpaść na kogoś nowego w badaniu szeregów czasowych (dowolnego rodzaju i dowolnego rodzaju analizy). Nie szukam wyczerpujących odpowiedzi. Sprawdź pytanie, na które powołałem się w moim pytaniu, aby dowiedzieć się, co próbuję tutaj zrobić.
naught101
Miałem na myśli, jaki rodzaj analizy
alancalvitti
Wiem. Myślę, że nie rozumiesz sedna pytania. Nie wahaj się komentować typowych przeszkód w dowolnej analizie dowolnego rodzaju szeregu czasowego, z którym masz doświadczenie. Po prostu trzymaj go na problemach specyficznych dla szeregów czasowych.
naught101
Hej @alancalvitti, ten przykład ekonomii brzmi interesująco. Czy znasz dobry opis tego, do którego moglibyśmy link tutaj?
naught101
Zredagowałem tę odpowiedź, aby przywrócić ją do głównego przedstawionego punktu (aby przywrócić ją do stylu „jeden punkt za odpowiedź”). Oznaczało to usunięcie informacji o analizie spektralnej. Być może coś można powiedzieć na ten temat w osobnej odpowiedzi (chociaż wydaje się, że nie dotyczy to pułapek, konkretnie, prawdopodobnie istnieją pułapki związane z analizą spektralną, które moglibyśmy tutaj odnotować). Powyższa dyskusja nie ma teraz sensu, ale myślę, że
rozumiecie
2

Będąc zbyt pewnym wyników swojego modelu, ponieważ używasz techniki / modelu (takiego jak OLS), który nie uwzględnia autokorelacji szeregów czasowych.

Nie mam ładnego wykresu, ale książka „Introductory Time Series with R” (2009, Cowpertwait, i in.) Daje rozsądne intuicyjne wyjaśnienie: jeśli istnieje dodatnia autokorelacja, wartości powyżej lub poniżej średniej będą się utrzymywać i zgrupować się w czasie. Prowadzi to do mniej wydajnego oszacowania średniej, co oznacza, że ​​potrzebujesz więcej danych do oszacowania średniej z tą samą dokładnością, niż gdyby nie było zerowej autokorelacji. Rzeczywiście masz mniej danych, niż ci się wydaje.

Proces OLS (a zatem ty) zakładasz, że nie ma autokorelacji, więc zakładasz również, że oszacowanie średniej jest dokładniejsze (dla ilości danych, które masz) niż w rzeczywistości. W rezultacie jesteś bardziej pewny swoich wyników niż powinieneś.

(Może to działać w drugą stronę w przypadku ujemnej autokorelacji: twoje oszacowanie średniej jest w rzeczywistości bardziej wydajne niż byłoby inaczej. Nie mam na to dowodów, ale sugerowałbym, że pozytywna korelacja jest bardziej powszechna w większości realnych czasów korelacja szeregowa niż ujemna).

Wayne
źródło
Przykład byłby świetny, nie do końca rozumiem
obecną
Dzięki za edycję @Wayne, ale w pewnym sensie miałem na myśli rzeczywisty przykład, najlepiej z pewną wizualizacją. Oczywiście inni też mogą to dodać - jest to wiki społeczności.
naught101
1
@ naught101: Ah. Dwie z trzech moich sugestii, które tu przedstawiłem, oparte są na tym, czego się nauczyłem, ale niekoniecznie wystarczająco dobre, aby stanowić dobry przykład. Spróbuję poszukać jednego w sieci.
Wayne
To tylko dane symulowane, ale moja odpowiedź na inne pytanie zawiera trochę kodu R z modelem dopasowanym do OLS, a następnie bardziej odpowiednio, biorąc pod uwagę autokorelację - z dramatycznie wyższymi wartościami p. stats.stackexchange.com/questions/27254/…
Peter Ellis
2

Wpływ przesunięć poziomu, pulsów sezonowych i lokalnych trendów czasowych ... oprócz impulsów jednorazowych. Zmiany parametrów w czasie są ważne do zbadania / modelowania. Należy zbadać możliwe zmiany wariancji błędów w czasie. Jak ustalić, w jaki sposób na Y wpływają równoczesne i opóźnione wartości X. Jak ustalić, czy przyszłe wartości X mogą wpłynąć na bieżące wartości Y. Jak dowiedzieć się, z poszczególnych dni miesiąca mają wpływ. Jak modelować problemy o mieszanej częstotliwości, w których dane godzinowe mają wpływ na wartości dzienne?

nic nie poprosiło mnie o podanie bardziej szczegółowych informacji / przykładów dotyczących przesunięć poziomów i pulsów. W tym celu dołączam teraz więcej dyskusji. Seria, która wykazuje ACF sugerujący niestacjonarność, w rzeczywistości dostarcza „objaw”. Jednym sugerowanym rozwiązaniem jest „różnicowanie” danych. Lekceważonym lekarstwem jest „usunięcie danych” z danych. Jeśli seria ma „duże” przesunięcie poziomu w średniej (tj. Interpretacji), acf całej serii może być łatwo źle zinterpretowany, co sugeruje różnicowanie. Pokażę przykład serii, która wykazuje zmianę poziomu. Gdybym podkreślił (powiększył) różnicę między tymi dwoma, oznacza, że ​​acf całej serii sugeruje (niepoprawnie!) Potrzebę różnicy. Nieleczone impulsy / przesunięcia poziomu / sezonowe impulsy / lokalne trendy czasowe zwiększają wariancję błędów zaciemniających znaczenie struktury modelu i są przyczyną wadliwych oszacowań parametrów i złych prognoz. Teraz przejdźmy do przykładu. Thwprowadź opis zdjęcia tutajto lista 27 miesięcznych wartości. To jest wykres wprowadź opis zdjęcia tutaj. Istnieją cztery impulsy i 1 zmiana poziomu ORAZ BRAK TRENDU! wprowadź opis zdjęcia tutaja wprowadź opis zdjęcia tutaj. Resztki z tego modelu sugerują proces białego szumu wprowadź opis zdjęcia tutaj. Niektóre (najbardziej!) Komercyjne, a nawet darmowe pakiety prognostyczne zapewniają następującą głupotę w wyniku przyjęcia modelu trendu z dodatkowymi czynnikami sezonowymi wprowadź opis zdjęcia tutaj. Kończąc i parafrazując Marka Twaina. „Są bzdury i są bzdury, ale najbardziej bezsensowną bzdurą ze wszystkich są bzdury statystyczne!” w porównaniu do bardziej rozsądnego wprowadź opis zdjęcia tutaj. Mam nadzieję że to pomoże !

IrishStat
źródło
1
Naprawdę? To są wszystkie pułapki i grzechy ? (Ponownie przeczytaj podkreśloną część pytania!) Być może masz na myśli przeciwieństwo tego, co napisałeś?
whuber
Celem moich komentarzy było zwrócenie uwagi na pułapki związane z brakiem rozrywki lub rozważeniem niektórych z tych możliwych rzeczywistych struktur. Należy unikać założeń, które nie są racjonalnie uzasadnione, w przeciwnym razie można uzyskać bardzo wątpliwe wyniki.
IrishStat
3
Zrozumiałem, że taka była intencja, ale w obecnej formie odpowiedź jest łatwa do zrozumienia. Np. Czy grzechem jest oceniać „wpływ” „impulsów jednorazowych”, czy grzechem jest tego nie robić? Jest to na tyle niejasne, że można uzasadnić każdą z tych interpretacji! (Tak, to grzech, ponieważ jednorazowe impulsy mogą być tylko wartościami odstającymi, na które nie chcesz dawać nadmiernego wpływu, a rozliczenie ich wszystkich może sparametryzować model; nie, należy je uwzględnić, ponieważ ich efekty mogą pozostać długi czas i ignorowanie tego może
wpływać na
@ whuber Jeśli efekty jednorazowego impulsu utrzymują się, można to modelować jako sekwencję impulsów jednorazowych w kolejnych punktach. To nie jest tak eleganckie, jak mogłoby być, ale mimo to skuteczne. Jak całkiem słusznie stwierdziłeś, nie chcesz, aby błędne wartości zniekształcały szacunkowe parametry powtarzalnej struktury, więc „grzechem” jest nie traktowanie nieokreślonej deterministycznej struktury, takiej jak impulsy, przesunięcia poziomu, pulsacje sezonowe i / lub lokalne trendy czasowe.
IrishStat
Myślę, że byłaby to naprawdę interesująca odpowiedź, gdyby pierwsze zdanie (przesunięcie poziomu i pulsowanie) zostało znacznie rozszerzone (z kilkoma przykładami), a reszta została odrzucona. Heteroskedastyczność stanowiłaby dobrą osobną odpowiedź.
naught101
1

Definiowanie trendu jako wzrostu liniowego w czasie.

Chociaż niektóre trendy są w pewien sposób liniowe (patrz cena akcji Apple) i chociaż wykres szeregów czasowych wygląda jak wykres liniowy, na którym można znaleźć regresję liniową, większość trendów nie jest liniowa.

Są zmiany Step, takie jak zmiany, gdy coś się wydarzyło w określonym momencie, który zmienił zachowanie pomiaru ( „Most się zawalił i od tego czasu nie przejeżdżają przez niego żadne samochody ”).

Innym popularnym trendem jest „Buzz” - wykładniczy wzrost i podobny gwałtowny spadek później ( „Nasza kampania marketingowa była ogromnym sukcesem, ale efekt zniknął po kilku tygodniach” ).

Znajomość odpowiedniego modelu (regresji logistycznej itp.) Trendu w szeregach czasowych jest kluczowa w zdolności do wykrycia go w danych szeregów czasowych.

Chłopak
źródło
1

Oprócz kilku wspaniałych punktów, o których już wspomniano, dodałbym:

  1. Niezauważenie długich cykli lub sezonowości - poprzez badanie tylko danych dotyczących „niewystarczająco długiego” okresu
  2. Brak oceny błędu prognozowania dla poprzednich okresów ( testowanie wsteczne )
  3. Nie wykryto zmian w reżimie i nie poradzono sobie z nimi

Problemy te nie są związane z zastosowanymi metodami statystycznymi, ale z projektem badania, tj. Które dane należy uwzględnić i jak oceniać wyniki.

Trudna część z punktu 1. polega na upewnieniu się, że zaobserwowaliśmy wystarczający okres danych, aby wyciągnąć wnioski na temat przyszłości. Podczas mojego pierwszego wykładu na temat szeregów czasowych profesor narysował długą krzywą zatoki na tablicy i wskazał, że długie cykle wyglądają jak trendy liniowe, gdy są obserwowane w krótkim oknie (całkiem proste, ale lekcja utknęła we mnie).

Punkt 2 jest szczególnie istotny, jeśli błędy twojego modelu mają pewne praktyczne implikacje. Między innymi jest szeroko stosowany w finansach, ale argumentowałbym, że ocena błędów prognozowania w poprzednich okresach ma sens w przypadku wszystkich modeli szeregów czasowych, w których pozwalają na to dane.

Punkt 3. ponownie dotyczy tematu, która część przeszłych danych jest reprezentatywna na przyszłość. To złożony temat z dużą ilością literatury - jako przykład podam mojego ulubionego: cukinię i MacDonalda .

oznacza znaczenie
źródło
1

Unikaj aliasu w próbkach szeregów czasowych. Jeśli analizujesz dane szeregów czasowych, które są próbkowane w regularnych odstępach czasu, wówczas częstotliwość próbkowania musi być dwa razy większa niż częstotliwość składowej najwyższej częstotliwości w próbkowanych danych. Jest to teoria próbkowania Nyquista, która dotyczy dźwięku cyfrowego, ale także dowolnych szeregów czasowych próbkowanych w regularnych odstępach czasu. Sposobem na uniknięcie aliasingu jest odfiltrowanie wszystkich częstotliwości powyżej częstotliwości nyquista, która stanowi połowę częstotliwości próbkowania. Na przykład w przypadku dźwięku cyfrowego częstotliwość próbkowania 48 kHz będzie wymagać filtra dolnoprzepustowego z odcięciem poniżej 24 kHz.
Efekt aliasingu można zaobserwować, gdy koła wydają się wirować do tyłu, ze względu na efekt strobiscopic, w którym szybkość strobowania jest bliska prędkości obrotowej koła. Obserwowane wolne tempo jest aliasem rzeczywistego tempa obrotów.

Marty
źródło