Mam pytanie związane z modelowaniem krótkich szeregów czasowych. Nie jest kwestią, czy je wymodelować , ale jak. Jaką metodę poleciłbyś do modelowania (bardzo) krótkich szeregów czasowych (powiedzmy o długości )? Przez „najlepszy” rozumiem tu najbardziej niezawodny, czyli najmniej podatny na błędy ze względu na ograniczoną liczbę obserwacji. W przypadku krótkich serii pojedyncze obserwacje mogą mieć wpływ na prognozę, dlatego metoda powinna zapewniać ostrożne oszacowanie błędów i możliwej zmienności związanej z prognozą. Zasadniczo jestem zainteresowany jednostronnymi szeregami czasowymi, ale ciekawym byłoby wiedzieć o innych metodach.
35
Mcomp
pakiecie dla R) 504 ma 20 lub mniej obserwacji, a konkretnie 55% rocznych serii. Abyś mógł sprawdzić oryginalną publikację i zobaczyć, co sprawdzało się w przypadku danych rocznych. Lub nawet przejrzyj oryginalne prognozy przesłane do konkursu M3, które są dostępne wMcomp
pakiecie (liścieM3Forecast
).Odpowiedzi:
To jest bardzo typowe dla bardzo prostych metod prognostycznych, takich jak „prognoza średnia historyczna” wyprzedzić bardziej skomplikowanych metod. Jest to jeszcze bardziej prawdopodobne w przypadku krótkich szeregów czasowych. Tak, w zasadzie możesz dopasować ARIMA lub nawet bardziej złożony model do 20 lub mniej obserwacji, ale raczej będziesz się przesadzał i otrzymywał bardzo złe prognozy.
Więc: zacznij od prostego testu porównawczego, np.
Oceń je na danych poza próbą. Porównaj bardziej skomplikowany model z tymi wzorcami. Możesz być zaskoczony, widząc, jak trudno jest przewyższyć te proste metody. Ponadto porównaj solidność różnych metod z tymi prostymi, np. Nie tylko oceniając średnią dokładność poza próbą, ale także wariancję błędu , używając ulubionej miary błędu .
Tak, jak pisze Rob Hyndman w swoim poście, do którego prowadzi Aleksandr , testowanie poza próbą stanowi problem sam w sobie w krótkich seriach - ale tak naprawdę nie ma dobrej alternatywy. ( Nie używaj dopasowania w próbie, co nie jest wskazówką do dokładności prognozowania .) AIC nie pomoże ci z medianą i losowym marszem. Jednak mógł używać szeregów czasowych walidacji krzyżowej , która przybliża AIC, w każdym razie.
źródło
Ponownie używam pytania jako okazji, aby dowiedzieć się więcej o szeregach czasowych - jednym z (wielu) tematów moich zainteresowań. Po krótkim badaniu wydaje mi się, że istnieje kilka podejść do problemu modelowania krótkich szeregów czasowych.
Pierwszym podejściem jest użycie standardowych / liniowych modeli szeregów czasowych (AR, MA, ARMA itp.), Ale zwrócenie uwagi na pewne parametry, jak opisano w tym poście [1] Roba Hyndmana, który nie potrzebuje wprowadzenia w szeregi czasowe i świat prognoz. Drugie podejście, do którego odwołuje się większość pokrewnej literatury, którą widziałem, sugeruje stosowanie nieliniowych modeli szeregów czasowych , w szczególności modeli progowych [2], które obejmują progowy model autoregresyjny (TAR) , samoistny TAR ( SETAR) , progowy autoregresyjny model średniej ruchomej (TARMA) i model TARMAX , który rozszerza TARmodel do egzogenicznych szeregów czasowych. Doskonałe przeglądy nieliniowych modeli szeregów czasowych, w tym modeli progowych, można znaleźć w tym dokumencie [3] i niniejszym [4].
Na koniec inny dokument badawczy związany z IMHO [5] opisuje interesujące podejście oparte na reprezentacji układów nieliniowych Volterra-Weinera - patrz to [6] i to [7]. Podejście to jest uważane za lepsze od innych technik w kontekście krótkich i hałaśliwych szeregów czasowych .
Referencje
źródło
Następujące metody jakościowe sprawdzają się w praktyce w przypadku bardzo krótkich danych lub ich braku:
Jedną z najlepszych metod, o których wiem, że działa bardzo dobrze, jest zastosowanie ustrukturyzowanych analogii (5. na powyższej liście), w której szukasz podobnych / analogicznych produktów w kategorii, którą próbujesz przewidzieć, i używasz ich do prognozowania prognozowania krótkoterminowego . Zobacz w tym artykule przykłady i dokument SAS na temat tego, jak to zrobić, używając oczywiście SAS. Jednym ograniczeniem jest to, że prognozowanie przez analogie będzie działać tylko wtedy, gdy masz dobre analogie, w przeciwnym razie możesz polegać na prognozowaniu osądowym. Oto kolejny film z oprogramowania Forecastpro na temat korzystania z narzędzia takiego jak Forecastpro do prognozowania przez analogię. Wybór analogii jest bardziej sztuką niż nauką i potrzebujesz specjalistycznej wiedzy w dziedzinie, aby wybrać analogiczne produkty / sytuacje.
Dwa doskonałe zasoby do prognozowania krótkich lub nowych produktów:
Poniższe informacje mają charakter poglądowy. Właśnie skończyłem czytać Sygnał i hałasautor: Nate Silver, ponieważ istnieje dobry przykład bańki i prognoz rynku mieszkaniowego w USA i Japonii (analogicznie do rynku amerykańskiego). Na poniższym wykresie, jeśli zatrzymasz się na 10 punktach danych i użyjesz jednej z metod ekstrapolacji (wygładzanie wykładnicze / ets / arima ...) i zobaczysz, dokąd cię zaprowadzi i gdzie faktycznie się skończyło. Ponownie przedstawiony przeze mnie przykład jest znacznie bardziej złożony niż prosta ekstrapolacja trendów. Ma to na celu podkreślenie ryzyka ekstrapolacji trendów przy użyciu ograniczonych punktów danych. Ponadto, jeśli Twój produkt ma wzór sezonowy, musisz użyć jakiejś formy analogicznej sytuacji produktu, aby prognozować. Przeczytałem artykuł, który według mnie w badaniu Journal of Business, że jeśli masz 13 tygodni sprzedaży produktów farmaceutycznych, możesz przewidzieć dane z większą dokładnością, używając analogicznych produktów.
źródło
Założenie, że liczba obserwacji jest krytyczna, pochodzi z nieistotnego komentarza GEP Box dotyczącego minimalnej wielkości próby w celu identyfikacji modelu. Jeśli chodzi o mnie, bardziej szczegółową odpowiedzią jest to, że problem / jakość identyfikacji modelu nie opiera się wyłącznie na wielkości próbki, ale na stosunku sygnału do szumu w danych. Jeśli masz silny stosunek sygnału do szumu, potrzebujesz mniej obserwacji. Jeśli masz niskie s / n, potrzebujesz więcej próbek do identyfikacji. Jeśli Twój zestaw danych jest miesięczny, a masz 20 wartości, empirycznie nie możesz zidentyfikować modelu sezonowego, JEŚLI uważasz, że dane mogą być sezonowe, możesz rozpocząć proces modelowania, określając ar (12), a następnie wykonać diagnostykę modelu ( testy istotności) w celu zmniejszenia lub rozszerzenia modelu z niedoborem strukturalnym
źródło
Mając bardzo ograniczone dane, byłbym bardziej skłonny do dopasowania danych przy użyciu technik bayesowskich.
Stacjonarność może być nieco trudna, gdy mamy do czynienia z Bayesowskimi modelami szeregów czasowych. Jednym z nich jest wymuszenie ograniczeń parametrów. Lub nie mogłeś. Jest to w porządku, jeśli chcesz tylko spojrzeć na rozkład parametrów. Jeśli jednak chcesz wygenerować predykcję późniejszą, możesz mieć wiele prognoz, które wybuchną.
Dokumentacja Stan podaje kilka przykładów, w których nakładają ograniczenia na parametry modeli szeregów czasowych w celu zapewnienia stacjonarności. Jest to możliwe w przypadku stosunkowo prostych modeli, których używają, ale może być prawie niemożliwe w bardziej skomplikowanych modelach szeregów czasowych. Jeśli naprawdę chcesz wymusić stacjonarność, możesz użyć algorytmu Metropolis-Hastings i wyrzucić wszelkie niewłaściwe współczynniki. Wymaga to jednak obliczenia wielu wartości własnych, co spowolni sytuację.
źródło
Problem, jak mądrze wskazałeś, polega na „przeuczeniu” spowodowanym ustalonymi procedurami opartymi na listach. Sprytnym sposobem jest utrzymanie prostego równania w przypadku niewielkiej ilości danych. Przekonałem się po wielu księżycach, że jeśli po prostu użyjesz modelu AR (1) i pozostawisz szybkość adaptacji (współczynnik ar) do danych, wszystko może działać całkiem dobrze. Na przykład, jeśli oszacowany współczynnik ar jest bliski zeru, oznacza to, że ogólna średnia byłaby odpowiednia. jeśli współczynnik jest bliski +1.0, oznacza to, że ostatnia wartość (skorygowana o stałą jest bardziej odpowiednia. Jeśli współczynnik jest bliski -1.0, to najlepsza prognoza byłaby ujemna od ostatniej wartości (skorygowanej o stałą). Jeżeli współczynnik jest inny, oznacza to, że odpowiednia jest średnia ważona niedawnej przeszłości.
Właśnie od tego zaczyna się AUTOBOX, a następnie odrzuca anomalie, ponieważ precyzyjnie dostosowuje oszacowany parametr w przypadku napotkania „małej liczby obserwacji”.
Jest to przykład „sztuki prognozowania”, kiedy podejście oparte wyłącznie na danych może nie mieć zastosowania.
Poniżej znajduje się automatyczny model opracowany dla 12 punktów danych bez obaw o anomalie. z aktualną / dopasowaną i prognozą tutaj oraz resztkową działką tutaj
źródło