Odznaczanie danych zliczania

12

Użyłem stl () w R, aby rozłożyć dane zliczania na składniki trendu, sezonowości i nieregularności. Wynikowe wartości trendu nie są już liczbami całkowitymi. Mam następujące pytania:

  1. Czy funkcja stl () jest odpowiednim sposobem na zdezasonalizowanie danych zliczania?
  2. Ponieważ wynikowy trend nie jest już wyceniany przez interger, czy mogę użyć lm () do modelowania składników trendu?
ann
źródło

Odpowiedzi:

8

Nie ma nieodłącznego problemu z użyciem stl () do dezasonizacji danych zliczania. Jedną z kwestii, o których należy pamiętać, jest to, że dane zliczania mają na ogół rosnącą wariancję wraz ze wzrostem średniej. Jest to często widoczne zarówno w sezonowych, jak i losowych elementach rozkładu. Użycie stl () na surowych danych nie weźmie tego pod uwagę, dlatego najlepiej może być najpierw wziąć logarytm (edycję - lub pierwiastek kwadratowy) danych.

Nie ma znaczenia, że ​​wartości trendu nie są już liczbami całkowitymi. Można o nich myśleć podobnie jak parametr w rozkładzie Poissona. Chociaż zmienna rozproszona Poissona musi być liczbą całkowitą, średnia nie musi być.

Nie musi to jednak oznaczać, że możesz użyć lm () do modelowania komponentu trendu. Istnieje wiele pułapek w modelowaniu trendów w szeregach czasowych, ponieważ fałszywych korelacji bardzo trudno będzie uniknąć. Częściej ludzie najpierw zniechęcają serię, a następnie modelują pozostałą część.

Peter Ellis
źródło
1
Jak określić, ile trendów należy uwzględnić, i długość każdego trendu? Czy rozróżniasz zmiany poziomów i trendy i ogólnie, jak zniechęcasz się w obecności wartości odstających / wewnętrznych?
IrishStat,
@IrishStat - tak, to są wszystkie dobre punkty i nie próbowałem rozwiązać pełnego zestawu problemów, po prostu zwróć uwagę na problemy z wykorzystaniem komponentu trendu z danych wyjściowych funkcji stl () R jako zmiennej odpowiedzi w regresji . stl () używa regresji lokalnie ważonej w swoim rozkładzie, co generalnie daje sensowne wyniki, jeśli chodzi o zmiany trendów itp., chociaż oczywiście ma ograniczenia w porównaniu do metod opartych na modelach, szczególnie do prognozowania.
Peter Ellis,