Wielowymiarowe szeregi czasowe w R. Jak znaleźć opóźnioną korelację i zbudować model do prognozowania

16

Jestem nowy na stronie i całkiem nowy w statystykach. R. Pracuję nad projektem dla college'u w celu znalezienia korelacji między poziomem opadów deszczu i przepływu wody w rzekach. Po udowodnieniu korelacji chcę ją przewidzieć / przewidzieć.

Dane Mam zestaw danych z kilku lat (pobieranych co 5 minut) dla poszczególnych rzek zawierających:

  • Opady deszczu w milimetrach
  • Przepływ rzeki w metrach sześciennych na sekundę

Ta rzeka nie ma śniegu, więc model opiera się na deszczu i czasie. Czasami występują ujemne temperatury, ale myślę o usunięciu tych okresów z danych jako odstających, ponieważ sytuacja ta jest poza zakresem mojego projektu.

Przykłady Tutaj masz kilka wykresów przykładowych danych z deszczu i wzlotu wody kilka godzin później.

Większy przykład kilka dni

Krótszy przykład tylko jeden okres opadów

Czerwona linia to przepływ rzeki. Pomarańczowy to deszcz. Widać, że zawsze pada deszcz, zanim woda podniesie się w rzece. Na końcu szeregu czasowego znów zaczyna padać deszcz, ale później wpłynie na przepływ rzeki.

Istnieje korelacja. Oto, co zrobiłem w R, aby udowodnić korelację za pomocą ccf w R:

  • korelacja krzyżowa
  • wiodąca zmienna
  • opóźnienie

Oto moja linia R użyta w drugim przykładzie (jeden okres opadów):

ccf(arnoiaex1$Caudal, arnoiaex1$Precip, lag.max=1000, plot=TRUE, main="Flow & Rain")

Wynik CCF dla małego przykładu 2

Moja interpretacja to:

  • że deszcz prowadzi (zdarza się pierwszy),
  • istnieje znacząca korelacja, która osiąga wartość szczytową z opóźnieniem (mogę sprawdzić dokładną liczbę, znam tę część).450
  • Nie wiem, jak ustalić, kiedy korelacja wpływa na przepływ rzeki, myślę, że nazwa to „retencja”. Widzę, że wykres ma taki sam kształt jak pierwszy wykres, gdy rzeka traci wodę po deszczu. Nie sądzę, jeśli na tej podstawie mogę powiedzieć, że retencja trwa od gdy osiąga wartość szczytową do (mogę to sprawdzić w obiekcie utworzonym w ramce danych zwróconej przez i zobaczyć, kiedy poziom wody wróci do wartości „przed deszczem”. Czy to prawda? Czy istnieje lepszy sposób na znalezienie retencji?450800ccf

Czy mam rację?

O szeregach czasowych . Ten szereg czasowy nie ma okresowości ani sezonowości. Deszcz może przyjść w każdej chwili i spowodować efekt. Zmniejsza się latem, ale wciąż się zdarza, jest to obszar z dużą ilością deszczu przez cały rok.

Model i prognoza. Nie wiem, jak stworzyć model, aby móc zrobić prognozę, która mówi mi, jak bardzo rzeka zwiększy głośność po deszczu. Próbowałem trochę arima, auto arimaale nie odniosłem sukcesu. Powinno się używać Arima, varslub innego odmiennego modelu wieloczynnikowej? Każdy link do przykładu byłby bardzo pomocny.

Daj mi znać, jeśli znasz najlepszy sposób na stworzenie tej prognozy, jakiego modelu powinienem użyć. Zastanawiam się nad kilkoma innymi rzeczami, ale wyciągnąłem je z tego wyjaśnienia dla uproszczenia. W razie potrzeby mogę udostępnić niektóre dane.

Fernando Ayuso
źródło
szukasz analizy interwencji (podzbiór w badaniach społecznych nazywa się „badaniami zdarzeń”)
Konstantinos

Odpowiedzi:

3

Musisz użyć zachowań ACF i PACF, aby pomóc ci określić, który model lepiej pasuje do twoich danych (np. Istnienie powolnego rozpadu w wykresie ACF wskazuje, że konieczne może być różnicowanie, aby seria była bardziej stabilna. Twój wykres ACF oczywiście pokazuje, że jakiś rodzaj transformacja jest potrzebna. Fluktuacja musi być mniej zróżnicowana i znajdować się w niebieskich liniach, jeśli zastosujesz właściwą transformację (serie stacjonarne). Po ustawieniu swojej serii w pozycji stacjonarnej zastanów się, który model AR, MA, ARMA lub ARIMA jest odpowiedni. W moim projekcie zrobiłem następujące, aby pomóc w wyborze modelu:

Wykres ACF pokazuje względnie dużą wartość w opóźnieniu 2 ( zobacz, gdzie to jest na twoim wykresie ). Poza tym staje się zasadniczo zerowy przy opóźnieniach większych niż dwa. Sugeruje to, że model MA (2) może pasować do danych, a następnie, patrząc na wykres PACF, od razu zauważamy, że korelacja wynosi zero prawie we wszystkich opóźnieniach. Może to sugerować, że model nie ma na sobie żadnej części AR ( dostosuj to do swojej fabuły). Dlatego jednym z naszych kandydujących modeli może być ARIMA (p, d, q) o parametrach p = 0, d = 1, a q = 1 lub 2. Próbowałem także wyższych zamówień MA i rozważałem możliwość posiadania części AR w modelu w celu porównania wyników z AIC, AICc i BIC i zdecydowania o ostatecznym modelu. w następnym kroku musisz przeprowadzić testy diagnostyczne, aby upewnić się, że wybrałeś właściwy model i że nie ma wzorca w resztkach (ACF i PACF dla reszt, wartość p dla statystyki Ljung-Box, histyogram dla reszt i Wykres QQ). Mam nadzieję, że to pomoże!

soshelp
źródło