Budowanie szeregu czasowego zawierającego wiele obserwacji dla każdej daty

11

Próbuję zastosować szereg czasowy do danych kwartalnych (biomasa zwierząt) w okresie 10 lat z 3 powtórzeniami na kwartał. A więc 40 dat, ale 120 całkowitych obserwacji.

Przeczytałem o SARIMA'a w Shumway i Stoffer's Time Series Analysis i jej zastosowaniach, a także odtłuszczonym Woodward, i in. al .'s Applied Time Series Analysis, i rozumiem, że każdy model oparty jest na pojedynczej obserwacji w każdym punkcie szeregu czasowego.

PYTANIE: Jak mogę uwzględnić zmienność w każdej obserwacji w moim modelu? Mógłbym zbudować serię na średniej, ale traciłbym zmienność przy każdej obserwacji i myślę, że ma to zasadnicze znaczenie dla mojego zrozumienia tego, co się dzieje.

r time-series
źródło

SARIMA można rozszerzyć na przypadek wielowymiarowy, który może być dla Ciebie odpowiedni. Słowem kluczowym w tym przypadku jest VAR. Oznacza to, że obserwujesz wektor liczb zamiast jednej liczby dla każdego okresu.

mpiktas,

4

W zależności od tego, co dokładnie rozumiesz przez „3 powtórzenia na kwartał”, model danych panelowych ( wikipedia ) może mieć sens. Oznaczałoby to, że wykonujesz trzy pomiary co kwadrans, po jednym z każdego z trzech różnych źródeł, które pozostają niezmienne w czasie. Twoje dane wyglądałyby mniej więcej tak:

obs quarter value
  A       1   2.2 
  A       2   2.3 
  A       3   2.4 
  B       1   1.8 
  B       2   1.7 
  B       3   1.6 
  C       1   3.3 
  C       2   3.4 
  C       3   3.5

Jeśli na to właśnie patrzysz, istnieje wiele modeli do pracy z danymi panelu. Oto przyzwoita prezentacja, która obejmuje niektóre podstawowe R, których użyłbyś do przeglądania danych panelu. Dokument ten jest nieco głębszy, choć z punktu widzenia ekonometrii.

Jeśli jednak dane nie pasują do metodologii danych panelowych, dostępne są inne narzędzia do „danych z puli”. Definicja z tego artykułu (pdf) :

Łączenie danych oznacza analizę statystyczną z wykorzystaniem wielu źródeł danych dotyczących wielu populacji. Obejmuje uśrednianie, porównania i powszechne interpretacje informacji. Powstają także różne scenariusze i problemy w zależności od tego, czy źródła danych i populacje są takie same / podobne lub różne.

Jak widać, z tej definicji techniki, których będziesz używać, będą zależały od tego, czego dokładnie oczekujesz od swoich danych.

Gdybym miał zasugerować miejsce do rozpoczęcia, zakładając, że trzy losowania w każdym kwartale są spójne w czasie, powiedziałbym, że zacznij od zastosowania estymatora efektów stałych (znanego również jako estymator wewnątrz) z panelowym modelem danych twojego dane.

W powyższym przykładzie kod wygląda następująco:

> Panel = data.frame(value=c(2.2,2.3,2.4,1.8,1.7,1.9,3.3,3.4,3.5), 
                     quarter=c(1,2,3,1,2,3,1,2,3), 
                     obs=c("A","A","A","B","B","B","C","C","C"))
> fixed.dum <-lm(value ~ quarter + factor(obs), data=Panel)
> summary(fixed.dum)

Co daje nam następujące wyniki:

Call:
lm(formula = value ~ quarter + factor(obs), data = Panel)

Residuals:
         1          2          3          4          5          6          7 
-1.667e-02 -8.940e-17  1.667e-02  8.333e-02 -1.000e-01  1.667e-02 -1.667e-02 
         8          9 
 1.162e-16  1.667e-02 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.13333    0.06055  35.231 3.47e-07 ***
quarter       0.08333    0.02472   3.371 0.019868 *  
factor(obs)B -0.50000    0.04944 -10.113 0.000162 ***
factor(obs)C  1.10000    0.04944  22.249 3.41e-06 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Residual standard error: 0.06055 on 5 degrees of freedom
Multiple R-squared: 0.9955, Adjusted R-squared: 0.9928 
F-statistic: 369.2 on 3 and 5 DF,  p-value: 2.753e-06

Tutaj wyraźnie widać wpływ czasu we współczynniku na zmienną ćwiartkową, a także efekt bycia w grupie B lub grupie C (w przeciwieństwie do grupy A).

Mam nadzieję, że wskaże ci to gdzieś we właściwym kierunku.

Wilduck
źródło

3

Myślę, że to interesujące. Moją sugestią byłoby uśrednienie trzech punktów danych, aby uzyskać płynne szeregi czasowe w celu dopasowania. Jak zauważysz, jeśli to zrobisz, ignorując fakt, że wziąłeś średnio trzy obserwacje, wyrzucasz informacje. Ale dla każdego punktu czasowego można zsumować kwadratowe odchylenia od średniej. Połącz sumy kwadratów we wszystkich przedziałach czasowych i podziel przez n-1, gdzie n jest całkowitą liczbą punktów użytych do obliczeń. Jeśli masz model ze strukturą szeregów czasowych (np. Trendy, komponent sezonowy, struktura zależności AR), to obliczenie może być niezależnym i obiektywnym oszacowaniem wariancji terminu błędu w modelu.

Michael R. Chernick
źródło

1

+1 za przydatny pomysł, który można łatwo zrealizować i teoretycznie jest ważny. Jedna mała korekta: w przedziałach czasowych będą obserwowane wartości . Bezstronna ocena wariancji podzieli sumę wszystkich odchyleń do kwadratu przez zamiast lub (jedno z nich jest zasadniczo różne i jest nieprawidłowe). Prawdopodobnie należy również opracować wykresy poszczególnych wariancji (po jednym na okres), aby ocenić, czy uzasadnione jest połączenie ich wszystkich w ten sposób.

3 n

$3n$

n

$n$

3 n

$3n$

2 n

$2n$

n - 1

$n-1$

3 n - 1

$3n-1$

whuber

Budowanie szeregu czasowego zawierającego wiele obserwacji dla każdej daty

Odpowiedzi: