Czy warto agregować szeregi czasowe, aby wyglądały bardziej sensownie?

10

Kolejne pytanie o szeregi czasowe ode mnie.

Mam zestaw danych, który codziennie rejestruje przypadki przemocy w szpitalu psychiatrycznym w ciągu trzech lat. Z pomocą mojego poprzedniego pytania bawiłem się nim i jestem teraz trochę szczęśliwy.

Mam teraz to, że codzienna seria jest bardzo głośna. Zmienia się gwałtownie, w górę i w dół, od 0 do 20 razy. Używając mniejszych wykresów i pakietu prognozy (co mogę bardzo polecić początkującym takim jak ja), po prostu otrzymuję całkowicie płaską linię, z ogromnymi przedziałami ufności z prognozy.

Jednak agregowanie danych tygodniowych lub miesięcznych ma znacznie większy sens. Zamiatają od początku serii, a następnie ponownie rosną w środku. Zarówno fabuła, jak i pakiet prognostyczny dają coś, co wygląda na znacznie bardziej znaczące.

To trochę przypomina oszustwo. Czy po prostu wolę wersje zagregowane, ponieważ wyglądają ładnie, bez prawdziwej ważności?

A może lepiej obliczyć średnią ruchomą i wykorzystać ją jako podstawę? Obawiam się, że nie rozumiem teorii stojącej za tym wszystkim wystarczająco dobrze, aby mieć pewność co do tego, co jest dopuszczalne

Chris Beeley
źródło

Odpowiedzi:

8

Zależy to całkowicie od twoich szeregów czasowych i tego, jaki efekt chcesz odkryć / udowodnić itp.

Ważną rzeczą jest tutaj, jaki rodzaj okresów masz w swoich danych. Zrób spektrum swoich danych i zobacz, jakie częstotliwości są wspólne w twoich danych.

W każdym razie nie kłamiesz, gdy zdecydujesz się wyświetlić wartości zagregowane. Jeśli szukasz efektów, które pojawiają się przez tygodnie (np. Więcej przemocy latem, gdy jest upał), dobrze jest to zrobić.

Może rzucisz okiem na Hilbert Huang Transform. Zapewni to funkcje trybu wewnętrznego, które są bardzo przydatne do analiz wizualnych.

Peter Smit
źródło
12

W prognozowaniu bardzo często agreguje się dane w celu zwiększenia stosunku sygnał / szum. Istnieje na przykład kilka artykułów na temat wpływu czasowej agregacji na dokładność prognoz w ekonomii. To, co prawdopodobnie widzisz w danych dziennych, to słaby sygnał, który jest tłumiony przez hałas, podczas gdy dane tygodniowe i miesięczne pokazują silniejszy, bardziej widoczny sygnał.

To, czy chcesz użyć agregacji czasowej, zależy całkowicie od tego, jaki jest twój cel. Jeśli potrzebujesz prognoz codziennych incydentów, agregacja nie będzie zbytnio przydatna. Jeśli chcesz zbadać wpływ kilku zmiennych towarzyszących na częstotliwość występowania, a wszystkie twoje dane są dostępne codziennie, prawdopodobnie skorzystałbym z danych dziennych, ponieważ da to większy rozmiar próby i prawdopodobnie umożliwi wykrycie efekty łatwiejsze.

Ponieważ używasz pakietu prognozy, prawdopodobnie interesuje Cię prognozowanie szeregów czasowych. Czy potrzebujesz zatem prognoz dziennych, tygodniowych lub miesięcznych? Odpowiedź określi, czy agregacja jest dla Ciebie odpowiednia.

Rob Hyndman
źródło
1

Wydaje się, że problemem (dylematem) jest wybór optymalnego (lub w inny dobry sposób) interwału próbkowania do przeglądu swoich prognoz. Na początek przeczytaj link do słynnej książki Browna, która również kwalifikuje się jako dobry odnośnik. Wszystko sprowadza się do „równoważenia ryzyka niezwłocznego zauważenia zmiany z nieodłączną zmiennością danych i kosztem częstego przeglądu planów”. Jeśli nie jesteś przygotowany do codziennego przeglądu swojej prognozy (i decyzji, które ją motywowały), tak naprawdę nie musisz korzystać z (najgłośniejszych) codziennych danych. Ważną kwestią, często zagubioną we współczesnej literaturze prognostycznej, jest to, że prognozy są konieczne jedynie w celu podjęcia decyzji (chyba że ktoś wie, jak czerpać z nich radość).

Hibernacja
źródło