Korzystam z dziennych szeregów czasowych danych o sprzedaży, które zawierają około 2 lata codziennych punktów danych. Na podstawie niektórych samouczków / przykładów online próbowałem zidentyfikować sezonowość danych. Wydaje się, że istnieje cotygodniowa, miesięczna i prawdopodobnie roczna okresowość / sezonowość.
Na przykład są dni wypłaty, szczególnie w przypadku efektu pierwszego dnia miesiąca, który utrzymuje się przez kilka dni w tygodniu. Istnieją również pewne szczególne efekty wakacyjne, które można łatwo rozpoznać po odnotowaniu spostrzeżeń.
Wyposażony w niektóre z tych obserwacji, spróbowałem:
ARIMA (z pakietem R-prognozy
Arima
iz niegoauto.arima
), przy użyciu regresora (i innych wartości domyślnych wymaganych w funkcji). Regresor, który utworzyłem, jest w zasadzie macierzą wartości 0/1:- Zmienne 11-miesięczne (n-1)
- 12 zmiennych świątecznych
- Nie udało mi się ustalić części dotyczącej wypłaty ... ponieważ jest to trochę bardziej skomplikowany efekt, niż myślałem. Efekt wypłaty działa inaczej, w zależności od dnia tygodnia pierwszego miesiąca.
Użyłem 7 (tj. Tygodniowej częstotliwości) do modelowania szeregów czasowych. Próbowałem testu - prognozowanie 7 dni na raz. Wyniki są rozsądne: średnia dokładność dla prognozy 11 tygodni wynosi tygodniową średnią RMSE do 5%.
Model TBATS (z pakietu R-prognozy) - z wykorzystaniem wielu sezonowości (7, 30,4375, 365.25) i oczywiście bez regresora. Dokładność jest zaskakująco lepsza niż model ARIMA przy tygodniowym średnim RMSE 3,5%.
W tym przypadku model bez błędów ARMA działa nieco lepiej. Teraz, jeśli zastosuję współczynniki tylko do efektów świątecznych z modelu ARIMA opisanego w punkcie 1, do wyników modelu TBATS tygodniowa średnia RMSE poprawi się do 2,95%
Teraz, nie mając zbyt dużego zaplecza ani wiedzy na temat podstawowych teorii tych modeli, mam dylemat, czy to podejście TBATS jest w ogóle słuszne. Mimo że znacznie poprawia RMSE w teście 11 tygodni, zastanawiam się, czy może utrzymać tę dokładność w przyszłości. Lub nawet jeśli zastosowanie efektów świątecznych z ARIMA do wyniku TBATS jest uzasadnione. Wszelkie uwagi od któregokolwiek / wszystkich autorów będą mile widziane.
Uwaga: Wykonaj „Zapisz link jako”, aby pobrać plik.
Odpowiedzi:
Powinieneś oceniać modele i prognozy z różnych źródeł w różnych horyzontach, a nie jedną liczbę, aby zmierzyć podejście.
Zakładam, że twoje dane pochodzą z USA. Wolę ponad 3 lata codziennych danych, ponieważ możesz mieć dwa święta lądujące w weekend i nie czytać w dni powszednie. Wygląda na to, że twój wpływ na Święto Dziękczynienia jest dniem wolnym w 2012 roku lub wystąpił jakiś błąd zapisu i spowodował, że model nie wykorzystał efektu Święta Dziękczynienia.
Stycznia są zwykle niskie w zestawie danych, jeśli wyglądasz na% roku. Weekendy są wysokie. Manekiny odzwierciedlają to zachowanie .... MONTH_EFF01, FIXED_EFF_N10507, FIXED_EFF_N10607
Odkryłem, że użycie komponentu AR z danymi dziennymi zakłada, że wzorzec z ostatnich dwóch tygodni w dniu tygodnia jest taki, jak ogólnie jest wzorzec, co jest dużym założeniem. Zaczęliśmy od 11 manekinów miesięcznych i 6 manekinów codziennych. Niektóre wypadły z modelu. B ** 1 oznacza, że dzień po wakacjach występuje opóźnienie. Było 6 specjalnych dni w miesiącu (dni 2, 3, 2, 2, 29, 30 - 21 mogą być fałszywe?) I 3 trendy czasowe, 2 pulsacje sezonowe (w których dzień tygodnia zaczął odbiegać od typowo, 0 przed tymi danymi i 1 co 7 dni później) i 2 wartości odstające (zwróć uwagę na Święto Dziękczynienia!) Uruchomienie zajęło niecałe 7 minut. Pobierz wszystkie wyniki tutaj www.autobox.com/se/dd/daily.zip
Zawiera szybki i brudny arkusz XLS, aby sprawdzić, czy model ma sens. Oczywiście, XLS% są w rzeczywistości złe, ponieważ są prymitywnymi punktami odniesienia.
Spróbuj oszacować ten model:
źródło