Próbuję zastosować szereg czasowy do danych kwartalnych (biomasa zwierząt) w okresie 10 lat z 3 powtórzeniami na kwartał. A więc 40 dat, ale 120 całkowitych obserwacji.
Przeczytałem o SARIMA'a w Shumway i Stoffer's Time Series Analysis i jej zastosowaniach, a także odtłuszczonym Woodward, i in. al .'s Applied Time Series Analysis, i rozumiem, że każdy model oparty jest na pojedynczej obserwacji w każdym punkcie szeregu czasowego.
PYTANIE: Jak mogę uwzględnić zmienność w każdej obserwacji w moim modelu? Mógłbym zbudować serię na średniej, ale traciłbym zmienność przy każdej obserwacji i myślę, że ma to zasadnicze znaczenie dla mojego zrozumienia tego, co się dzieje.
Odpowiedzi:
W zależności od tego, co dokładnie rozumiesz przez „3 powtórzenia na kwartał”, model danych panelowych ( wikipedia ) może mieć sens. Oznaczałoby to, że wykonujesz trzy pomiary co kwadrans, po jednym z każdego z trzech różnych źródeł, które pozostają niezmienne w czasie. Twoje dane wyglądałyby mniej więcej tak:
Jeśli na to właśnie patrzysz, istnieje wiele modeli do pracy z danymi panelu. Oto przyzwoita prezentacja, która obejmuje niektóre podstawowe R, których użyłbyś do przeglądania danych panelu. Dokument ten jest nieco głębszy, choć z punktu widzenia ekonometrii.
Jeśli jednak dane nie pasują do metodologii danych panelowych, dostępne są inne narzędzia do „danych z puli”. Definicja z tego artykułu (pdf) :
Jak widać, z tej definicji techniki, których będziesz używać, będą zależały od tego, czego dokładnie oczekujesz od swoich danych.
Gdybym miał zasugerować miejsce do rozpoczęcia, zakładając, że trzy losowania w każdym kwartale są spójne w czasie, powiedziałbym, że zacznij od zastosowania estymatora efektów stałych (znanego również jako estymator wewnątrz) z panelowym modelem danych twojego dane.
W powyższym przykładzie kod wygląda następująco:
Co daje nam następujące wyniki:
Tutaj wyraźnie widać wpływ czasu we współczynniku na zmienną ćwiartkową, a także efekt bycia w grupie B lub grupie C (w przeciwieństwie do grupy A).
Mam nadzieję, że wskaże ci to gdzieś we właściwym kierunku.
źródło
Myślę, że to interesujące. Moją sugestią byłoby uśrednienie trzech punktów danych, aby uzyskać płynne szeregi czasowe w celu dopasowania. Jak zauważysz, jeśli to zrobisz, ignorując fakt, że wziąłeś średnio trzy obserwacje, wyrzucasz informacje. Ale dla każdego punktu czasowego można zsumować kwadratowe odchylenia od średniej. Połącz sumy kwadratów we wszystkich przedziałach czasowych i podziel przez n-1, gdzie n jest całkowitą liczbą punktów użytych do obliczeń. Jeśli masz model ze strukturą szeregów czasowych (np. Trendy, komponent sezonowy, struktura zależności AR), to obliczenie może być niezależnym i obiektywnym oszacowaniem wariancji terminu błędu w modelu.
źródło