Chciałbym połączyć prognozę i prognozę wsteczną (mianowicie prognozowane wartości przeszłe) zestawu danych szeregów czasowych w jeden szereg czasowy, minimalizując średni błąd przewidywania kwadratu.
Powiedzmy, że mam szeregi czasowe z lat 2001–2010 z luką dla roku 2007. Byłem w stanie prognozować 2007 na podstawie danych z lat 2001–2007 (czerwona linia - zwana ) i nadawać wstecz z wykorzystaniem danych na lata 2008–2009 (jasnoniebieski linia - nazwij to ).Y b
Chciałbym połączyć punkty danych i w przypisany punkt danych Y_i dla każdego miesiąca. Idealnie chciałbym uzyskać wagę tak, aby zminimalizować średni błąd przewidywania kwadratu (MSPE) . Jeśli nie jest to możliwe, jak miałbym znaleźć średnią między punktami danych dwóch szeregów czasowych?Y b w Y i
Jako szybki przykład:
tt_f <- ts(1:12, start = 2007, freq = 12)
tt_b <- ts(10:21, start=2007, freq=12)
tt_f
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
2007 1 2 3 4 5 6 7 8 9 10 11 12
tt_b
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
2007 10 11 12 13 14 15 16 17 18 19 20 21
Chciałbym uzyskać (tylko pokazując uśrednianie ... Idealnie minimalizując MSPE)
tt_i
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
2007 5.5 6.5 7.5 8.5 9.5 10.5 11.5 12.5 13.5 14.5 15.5 16.5
źródło
predict
funkcji pakietu prognozy. Myślę jednak, że użyję modelu prognostycznego HoltWinters do przewidywania i wstecznego rozwoju. Mam szeregi czasowe z niewielką liczbą <50 i próbowałem prognozowania regresji Poissona - ale z jakiegoś powodu bardzo słabych prognoz.NA
wartości? Wydaje się, że uczynienie okresu nauki MSPE może wprowadzać w błąd, ponieważ podokresy są dobrze opisane przez tendencje liniowe, ale w pominiętym okresie gdzieś następuje spadek, a właściwie może to być dowolny punkt. Należy również zauważyć, że ponieważ prognozy mają tendencję kolinearną, ich średnia wprowadzi dwie przerwy strukturalne zamiast pozornie jednej.Odpowiedzi:
Zakładając, że masz kwadratowe błędy predykcji dla prognozy i osobno dla backcastu, poleciłbym to: Niech będzie wektorem długości 12, niech będzie miesiącem, który Cię interesuje.
Teraz w jest wagą prognozy, a 1-w jest wagą prognozy wstecznej.
źródło
s/w/m/
Twoim celem jest wykonanie wygładzania ustalonego interwału (FI) szeregów czasowych. Wygładzona wartość obserwacji w czasie jest zdefiniowana jako oczekiwanie warunkowe gdzie zapis jest dla wektor obserwacji od czasu do czasu . Powyżej przyjmuje się, że odstęp stanowi przedział od czasu do , a jest długością całej serii. Czas jest w luce i oczekiwanie można zapisaćT T : = E ( T T | T 1 : R ,t Y u : v :=[ Y u ,
Wygładzona wartość nie ma prostej formy, którą zgadujesz. Dla gaussowskiego stacjonarnego szeregu czasowego ze znaną strukturą kowariancji, oszacowane dla w szczelinie można znaleźć rozwiązując układ liniowy. TYˆt t
Gdy model szeregów czasowych można umieścić w postaci przestrzeni stanu (SS), wygładzanie FI jest standardową operacją opartą na filtrowaniu Kalmana i można tego dokonać np. Przy użyciu dostępnych funkcji R. Musisz tylko określić, że brakuje wartości w luce. Algorytm wygładzania szacuje stan ukryty który zawiera wszystkie istotne informacje o dla luce. Modele ARIMA można wprowadzić w postaci SS.αt tYt t
Co ciekawe, wygładzanie FI można zapisać jako kombinację dwóch filtrów: jednego do przodu i jednego do tyłu, co prowadzi do formuły oczekiwanej, ale do oszacowania stanu ukrytego (prognoza i backcast), ale nie dla obserwacji . Jest to znane jako filtrowanie Rauch-Tung-Striebel .Y tαt Yt
Przynajmniej w wersjach multiplikatywnych procedury prognozowania „ad hoc”, takie jak Holt-Winters, opierają się na modelach stochastycznych bez prostych algorytmów FI, ponieważ nie można ich wprowadzić w postaci SS. Formułę wygładzania można prawdopodobnie przybliżyć w przybliżeniu za pomocą modelu SS, ale o wiele prostsze jest zastosowanie modeli Strukturalnych Szeregów Czasowych z transformacjami logów. Funkcje „KalmanSmooth”, „tsSmooth” i „StructTS” pakietu statystyk R mogą wykonać to zadanie. Powinieneś rzucić okiem na książki Harveya lub Durbina i Koopmana cytowane na stronach pomocy R. Algorytm wygładzania może zapewnić warunkową wariancję dla oszacowanegoYt i może służyć do budowania interwałów wygładzania, które zwykle są większe w środku odstępu. Należy jednak pamiętać, że oszacowanie modeli konstrukcyjnych może być trudne.
źródło
Uważam, że wasze sugerowane podejście, polegające na wykorzystaniu środków z przednich i tylnych rzutów, jest interesujące.
Warto zwrócić uwagę na to, że w każdym systemie o chaotycznej strukturze prognozy prawdopodobnie będą dokładniejsze w krótszych okresach. Nie dotyczy to wszystkich systemów, na przykład tłumik wahadłowy może być modelowany przez funkcję z niewłaściwym okresem, w którym to przypadku wszystkie prognozy średnioterminowe prawdopodobnie będą błędne, podczas gdy wszystkie długoterminowe będą bardzo dokładne, ponieważ system zbiega się do zera. Ale wydaje mi się, z wykresu w pytaniu, że może to być rozsądne założenie tutaj.
Oznacza to, że lepiej byłoby, gdybyśmy w większym stopniu polegali na danych prognozowanych dla wcześniejszej części brakującego okresu, a bardziej na danych rzutowanych wstecz dla drugiej części. Najprostszym sposobem na to byłoby użycie liniowo malejącej wagi dla prognozy, a odwrotnie dla rzutowania wstecznego:
Daje to niewielką wagę backcastu na pierwszym elemencie. Możesz także użyć n-1, bez indeksów na końcu, jeśli chcesz użyć tylko wartości prognozy dla pierwszego interpolowanego punktu.
Nie mam twoich danych, więc wypróbujmy to w zestawie danych AirPassenger w R. Po prostu usunę dwuletni okres w pobliżu centrum:
I jest twoja interpolacja.
Oczywiście nie jest idealny. Wydaje mi się, że wynika to z faktu, że wzorce we wcześniejszej części danych różnią się od wzorców w drugiej części (szczyt lipiec-sierpień nie jest tak silny we wcześniejszych latach). Ale jak widać na zdjęciu, jest to wyraźnie lepsze niż tylko prognozowanie lub samo rzutowanie wstecz. Wyobrażam sobie, że twoje dane mogą uzyskać nieco mniej wiarygodne wyniki, ponieważ nie ma tak silnej zmienności sezonowej.
Domyślam się, że możesz spróbować tego, w tym również przedziały ufności, ale nie jestem pewien, czy robienie tego jest tak proste.
źródło