Jak uzupełnić brakujące dane w szeregach czasowych?

16

Mam duży zestaw danych o zanieczyszczeniach, które są rejestrowane co 10 minut w ciągu 2 lat, jednak istnieje wiele luk w danych (w tym niektóre, które pojawiają się przez kilka tygodni na raz).

Dane wydają się dość sezonowe i istnieje duża zmienność w ciągu dnia w porównaniu do nocy, w której wartości nie mają dużej zmienności, a punkty danych są niższe.

Rozważałem osobne dopasowanie modelu lessa do podzbiorów czasu i nocy (ponieważ istnieje między nimi oczywista różnica), a następnie przewidzenie wartości brakujących danych i wypełnienie tych punktów.

Zastanawiałem się, czy jest to odpowiedni sposób podejścia do tego problemu, a także czy istnieje potrzeba dodania lokalnej zmienności do przewidywanych punktów.

Jamesm131
źródło

Odpowiedzi:

20

Odpowiedź będzie zależeć od projektu badania (np. Przekrojowe szeregi czasowe? Szereg czasowy kohort, szereg czasowy kohort??). Honaker i King opracowali podejście przydatne w szeregach czasowych przekrojowych (być może przydatne w szeregach czasowych kohort szeregowych, w zależności od twoich założeń), w tym pakiet R Amelia II do przypisywania takich danych. Tymczasem Spratt & Co. opisali inne podejście, które można zastosować w niektórych projektach szeregów czasowych kohorty, ale jest rzadkie w implementacjach oprogramowania.

Projekt przekrojowych szeregów czasowych (inaczej projekt badania panelowego) to taki, w którym populacja (populacje) jest (są) wielokrotnie próbkowane (np. Co roku), przy użyciu tego samego protokołu badania (np. Te same zmienne, przyrządy itp.) ). Jeśli strategia próbkowania jest reprezentatywna, tego rodzaju dane dają roczny obraz (jeden pomiar na uczestnika lub podmiot) rozkładów tych zmiennych dla każdej populacji w badaniu.

Projekt szeregów czasowych w kohortach (zwany także planami badań w powtarzanych kohortach, projekt badań podłużnych, czasem nazywany również planami badań panelowych) to taki, w którym poszczególne jednostki analizy są próbkowane jeden raz, a następnie monitorowane przez długi okres czasu. Z osobników można pobrać próbki w reprezentatywny sposób z jednej lub więcej populacji. Jednak reprezentatywne szeregi czasowe kohorty próbka stanie się bardziej ubogich reprezentatywne populacji docelowej (przynajmniej w ludzkiej populacji) w miarę upływu czasu, z powodu ludzi rodzi lub starzenie się populacji docelowej i barwienia lub starzenia się z nim, a także z imigracją i emigracją.

ZA szeregów czasowych w szeregach kohort (aka powtórzone, wiele i wiele kohort lub projekt badania panelowego) to taki, w którym populacja (populacje) jest (są) wielokrotnie próbkowane (np. Co roku), przy użyciu tego samego protokołu badania ( np. te same zmienne, instrumenty itp.), które mierzą poszczególne jednostki analizy w populacji w dwóch punktach czasowych w danym okresie (np. w ciągu roku) w celu stworzenia miar szybkości zmian. Jeśli strategia próbkowania jest reprezentatywna, tego rodzaju dane dają roczny obraz tempa zmian tych zmiennych dla każdej populacji w badaniu.

Literatura
Honaker, J. and King, G. (2010). Co zrobić z brakującymi wartościami w danych przekroju szeregów czasowych . American Journal of Political Science , 54 (2): 561–581.

Spratt, M., Carpenter, J., Sterne, JAC, Carlin, JB, Heron, J., Henderson, J., and Tilling, K. (2010). Strategie wielokrotnego przypisania w badaniach podłużnych . American Journal of Epidemiology , 172 (4): 478–4876.

Alexis
źródło
Dziękuję za odpowiedź. Zastanawiałem się tylko, czy możesz zdefiniować różne typy szeregów czasowych (kohorta, przekrój itp.), Ponieważ jestem stosunkowo nowy w tego typu badaniach i nie spotkałem się z tymi terminami wcześniej.
Jamesm131,
@ Jamesm131 Zobacz moją zredagowaną odpowiedź.
Alexis,
7

możesz użyć pakietu imputeTS w R. Wierzę, że dane, nad którymi pracujesz, są szeregami czasowymi z różnymi zmiennymi. Pakiet imputeTS specjalizuje się w imputacji szeregów czasowych (z jednowymiarowymi). Oferuje kilka różnych implementacji algorytmu imputacji. Oprócz algorytmów imputacji pakiet zapewnia także funkcje drukowania i drukowania brakujących danych statystycznych. Cóż, polecam przyjrzeć się Modelom Przestrzeni Stanu pod kątem brakujących wartości. Ten pakiet powinien pomóc ci w analizie.

GD_N
źródło