Jak włączyć innowacyjną wartość odstającą przy obserwacji 48 w moim modelu ARIMA?

Pracuję nad zestawem danych. Po zastosowaniu niektórych technik identyfikacji modelu, wyszłam z modelem ARIMA (0,2,1).

Użyłem detectIOfunkcji w pakiecie TSAw R do wykrycia innowacyjnej wartości odstającej (IO) przy 48. obserwacji mojego oryginalnego zestawu danych.

Jak włączyć tę wartość odstającą do mojego modelu, aby móc jej używać do celów prognozowania? Nie chcę korzystać z modelu ARIMAX, ponieważ mogę nie być w stanie przewidzieć na podstawie tego prognozy w R. Czy istnieją inne sposoby, aby to zrobić?

Oto moje wartości w kolejności:

VALUE <- scan()
  4.6  4.5  4.4  4.5  4.4  4.6  4.7  4.6  4.7  4.7  4.7  5.0  5.0  4.9  5.1  5.0  5.4
  5.6  5.8  6.1  6.1  6.5  6.8  7.3  7.8  8.3  8.7  9.0  9.4  9.5  9.5  9.6  9.8 10.0
  9.9  9.9  9.8  9.8  9.9  9.9  9.6  9.4  9.5  9.5  9.5  9.5  9.8  9.3  9.1  9.0  8.9
  9.0  9.0  9.1  9.0  9.0  9.0  8.9  8.6  8.5  8.3  8.3  8.2  8.1  8.2  8.2  8.2  8.1
  7.8  7.9  7.8  7.8

To właściwie moje dane. Są to stopy bezrobocia przez okres 6 lat. Mamy wtedy 72 obserwacje. Każda wartość ma najwyżej jedno miejsce po przecinku

r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models b2amen
źródło

t = 48

$t=48$

@Gen_b Masz rację, powinno ci to przeszkadzać, ponieważ jest to prawdopodobnie zbyt zróżnicowane, powodujące anulowanie MA (1). Błędna identyfikacja wynika z użycia nieodpowiednich narzędzi.

IrishStat

W drugiej różnicy masz coś, co wygląda jak wartość odstająca, ale najwyraźniej jest to spowodowane niewielkim skokiem addytywnym podczas obserwacji 47 w oryginalnej serii, który po dwukrotnym różnicowaniu wygląda jak duża wartość odstająca, jeden okres później. Jeśli zrobisz coś prostego, aby usunąć ten niewielki efekt z obserwacji 47 (prawie wszystko sensowne), w drugiej różnicy nie pojawią się wartości odstające. Powiedziałbym, że być może lepiej spojrzeć na AO w oryginalnej skali.

Glen_b

W tym zestawie danych wiele się dzieje, ale lokalne zachowanie czasowe (korelacja, sezonowość itp.) Jest najmniejsze. Kiedy ślepo analizujesz takie dane jako sekwencję liczb, istnieje ryzyko, że uzyskasz absurdalne wyniki (lub gorzej). Co możesz nam powiedzieć o tym, co oznaczają te dane ? Czy to może pomiary czegoś na stacji monitorującej? Ekonomiczny szereg czasowy? Wykres wzrostu biologicznego? Zrozumienie czegoś na temat zjawiska leżącego u jego podstaw zazwyczaj pomoże znacznie lepiej zidentyfikować model niż jakakolwiek ilość zabawek z oprogramowaniem statystycznym.

whuber

@ whuber: są to stopy bezrobocia przez okres 6 lat!

b2amen

$Y(t) = [\theta/\phi][A(t)+\text{IO}(t)]$ $Y^\text{*}(t) = [\theta/\phi][A(t)] + [\theta/\phi][\text{IO}(t)]$

$\theta = 1$ $\phi = [1-.5B]$
$Y^\text{*}(t) = [1/(1-.5B)][A(t)]$
$\quad\quad\quad\quad+ \text{IO}(t) - .5\cdot \text{IO}(t-1) + .25\cdot \text{IO}(t-2) - .125\cdot \text{IO}(t-3)-\ldots\,.$

$Y^{*}(t) = [1/(1-.5B)][A(t)]$ $\quad\quad\quad\quad+ 10\cdot \text{IO}(t) - 5\cdot \text{IO}(t-1) + 2.5\cdot \text{IO}(t-2) - 1.25\cdot \text{IO}(t-3)-\ldots\,.$
$\text{IO}$

W ten sposób możesz zobaczyć, że wpływ anomalii jest nie tylko natychmiastowy, ale ma pamięć.

$t$

$[w(b)/d(b)]$ $[w(b)]$

Za każdym razem, gdy włączasz pamięć, wynikającą z różnicowania operatora lub struktury ARMA, jest to milczące przyznanie się do niewiedzy z powodu pominiętej serii przyczynowej. Dotyczy to również potrzeby uwzględnienia szeregów deterministycznych interwencji, takich jak impulsy / przesunięcia poziomów, impulsy sezonowe lub lokalne trendy czasowe. Te zmienne fikcyjne są potrzebnym proxy dla pominiętych deterministycznych zmiennych przyczynowych określonych przez użytkownika. Często wszystko, co masz, to seria zainteresowań, a biorąc pod uwagę określone przeze mnie kwalifikatory, możesz prognozować przyszłość na podstawie przeszłości, całkowicie ignorując dokładnie naturę analizowanych danych. Jedynym problemem jest to, że używasz tylnej szyby do przewidywania drogi przed sobą ... to naprawdę niebezpieczna rzecz.

po opublikowaniu danych ...

Rozsądnym modelem jest (1,1,0), wprowadź opis zdjęcia tutaj a anomalie AO zidentyfikowano w okresach 39, 41, 37, 21 i 69 (nie w okresie 48). Resztki z tego modelu wydają się być wolne od wyraźnej struktury. AND Fice AO ceni optymalną reprezentację aktywności odzwierciedloną przez aktywność poza historią szeregów czasowych. Sądzę, że ACF z nadmiernie zróżnicowanego modelu PO odzwierciedlałoby nieadekwatność modelu. Oto model. Ponownie nie dostarczono kodu R, ponieważ problem lub szansa dotyczy identyfikacji / weryfikacji / weryfikacji modelu. Wreszcie wykres aktualnej / dopasowanej i prognozowanej serii.! [Wprowadź opis zdjęcia tutaj] [6]

IrishStat
źródło

dzięki za odpowiedź; ale tak naprawdę chciałem zamiast tego kodu R dla mojego modelu.

b2amen

@ b2amen Tak, podkreśliłem ALE Glen_b chciał trochę „rzeczy” i pomyślałem, że mu odpowiem.

IrishStat,

Dzięki za edycję. Ty i ja bylibyśmy dobrymi partnerami!

IrishStat

@ IrishStat: moje dane są zawarte w pierwotnym pytaniu. Mam nadzieję, że może mi pomóc. W każdym razie dzięki

b2amen

@IrishStat: Podoba mi się twój wynik. Wygląda mi to całkiem fajnie. A z jakiego oprogramowania korzystałeś? Ale czy możesz wyjaśnić, w jaki sposób zidentyfikowałeś AR (2,1,0)? Dzięki

b2amen

Jak włączyć innowacyjną wartość odstającą przy obserwacji 48 w moim modelu ARIMA?

Odpowiedzi: