Interpretacja średniego bezwzględnego błędu skalowanego (MASE)

22

Średni bezwzględny błąd skali (MASE) to miara dokładności prognozy zaproponowana przez Koehlera i Hyndmana (2006) .

MASE=MAEMAEinsample,naive

gdzie jest średnim błędem bezwzględnym spowodowanym faktyczną prognozą; podczas gdy jest średnim błędem bezwzględnym generowanym przez naiwną prognozę (np. prognoza braku zmian dla zintegrowanego szeregu czasowego ), obliczoną na podstawie danych w próbie.M A E i n - s a m p l e ,MAE
I(1)MAEinsample,naiveI(1)

(Sprawdź dokument Koehler i Hyndman (2006), aby uzyskać dokładną definicję i wzór).

MASE>1 implikuje, że rzeczywista prognoza jest gorsza poza próbą niż naiwna prognoza w próbie, pod względem średniego błędu bezwzględnego. Zatem jeśli średni błąd bezwzględny jest odpowiednią miarą dokładności prognozy (która zależy od danego problemu),MASE>1 sugeruje, że rzeczywista prognoza powinna zostać odrzucona na rzecz naiwnej prognozy, jeśli spodziewamy się, że dane z próby nie będą być jak dane w próbie (ponieważ wiemy tylko, jak dobrze naiwna prognoza wypadła w próbie, a nie poza próbą).

Pytanie:

MASE=1.38 został wykorzystany jako punkt odniesienia w konkursie prognostycznym zaproponowanym w tym wpisie na blogu Hyndsight . Czy oczywistym punktem odniesienia nie powinno być ?MASE=1

Oczywiście to pytanie nie dotyczy konkretnego konkursu prognozowania. Chciałbym uzyskać pomoc w zrozumieniu tego w bardziej ogólnym kontekście.

Zgaduję że:

Jedyne rozsądne wyjaśnienie, jakie widzę, to oczekiwanie, że naiwna prognoza wypadnie znacznie gorzej z próby niż z próby, np. Z powodu zmian strukturalnych. Wtedy mogłoby być zbyt trudne do osiągnięcia.MASE<1

Referencje:

Richard Hardy
źródło
W swoim blogu Rob zauważa, skąd wziął się ten test porównawczy: „Progi te są najskuteczniejszymi metodami analizy tych danych opisanymi w Athanasopoulos i in. (2010)”. Czy spojrzałeś na artykuł Athanosopoulos?
S. Kolassa - Przywróć Monikę
Jestem nieco zdziwiony „zgadywaniem”: zmiana strukturalna oznaczałaby, że wyrafinowana prognoza opierałaby się na częściowo nieistotnych danych z przeszłości. Ale jak przerwa strukturalna wpłynie na prognozę „bez zmian”, zależy od przerwy. Jeśli na przykład patrzymy na losowy spacer z dryfem, a przerwa strukturalna oznacza, że ​​dryf, stały składnik, właśnie się obniżył , wtedy prognoza „bez zmian” będzie działać lepiej po przerwie, niż przed nią.
Alecos Papadopoulos
MASE>>1
MASE
Powiązane: stats.stackexchange.com/questions/124955/…
S. Kolassa - Przywróć Monikę

Odpowiedzi:

15

W łączonym poście na blogu Rob Hyndman wzywa do zgłaszania się do konkursu dotyczącego prognozowania turystyki. Zasadniczo post na blogu służy zwróceniu uwagi na odpowiedni artykuł IJF , do którego nie opublikowanej wersji dołączono link do postu na blogu.

Wskaźniki, do których się odwołujesz - 1,38 dla miesięcznych, 1,43 dla kwartalnych i 2,28 dla rocznych danych - najwyraźniej osiągnięto w następujący sposób. Autorzy (wszyscy są ekspertami prognostycznymi i bardzo aktywnymi w IIF - tutaj nie ma sprzedawców ropy wężowej) są w stanie zastosować standardowe algorytmy prognostyczne lub oprogramowanie prognostyczne i prawdopodobnie nie są zainteresowani prostym zgłoszeniem ARIMA. Poszli więc i zastosowali standardowe metody do swoich danych. Zwycięskie zgłoszenie zostanie zaproszone na referat do IJF , proszą o ulepszenie najlepszych z tych standardowych metod, mierzonych przez MASE.

Więc twoje pytanie sprowadza się zasadniczo do:

Biorąc pod uwagę, że MASE 1 odpowiada prognozie, która jest poza próbą tak dobra (według MAD), jak naiwna próba losowego spaceru w próbie, dlaczego standardowe metody prognozowania, takie jak ARIMA, nie poprawią się o 1,38 dla danych miesięcznych?

Tutaj 1.38 MASE pochodzi z Tabeli 4 w wersji niechronionej. Jest to średnia ASE dla prognoz ARIMA z przedziału 1-24 miesięcy. Inne standardowe metody, takie jak ForecastPro, ETS itp. Działają jeszcze gorzej.

exp(t)ze standardowymi metodami. Żadne z nich nie uchwyci trendu przyspieszania (i jest to zwykle Dobra Rzecz - jeśli twój algorytm prognozowania często modeluje trend przyspieszania, prawdopodobnie znacznie przekroczysz swoją ocenę), i uzyskają MASĘ, która jest powyżej 1. Inne wyjaśnienia mogą , jak mówisz, będą różne przerwy strukturalne, np. przesunięcia poziomów lub wpływy zewnętrzne, takie jak SARS lub 9/11, które nie zostałyby uchwycone przez modele przyczynowe inne niż przyczynowe, ale które mogłyby być modelowane za pomocą dedykowanych metod prognozowania turystyki (chociaż przy użyciu przyszłe związki przyczynowe w próbie wstrzymania są rodzajem oszustwa).

Powiedziałbym więc, że prawdopodobnie nie można wiele powiedzieć na ten temat, patrząc na same dane. Są dostępne na Kaggle. Twój najlepszy zakład prawdopodobnie zajmie te 518 serii, wytrzyma ostatnie 24 miesiące, dopasuje serię ARIMA, obliczy MASE, wykopie dziesięć lub dwadzieścia najgorszych prognoz MASE, zdobędziesz duży dzbanek kawy, spójrz na te serie i spróbuj aby dowiedzieć się, co sprawia, że ​​modele ARIMA są tak złe w prognozowaniu ich.

EDYCJA: kolejny punkt, który wydaje się oczywisty po tym fakcie, ale zajęło mi to pięć dni - pamiętaj, że mianownik MASE jest prognozą losowego marszu o jeden krok do przodu , podczas gdy licznik jest średnią 1-24- wyprzedzić prognozy. Nic dziwnego, że prognozy pogarszają się wraz ze wzrostem horyzontów, więc może to być kolejny powód, dla którego MASE wynosi 1,38. Należy pamiętać, że prognoza sezonowej naiwności została również uwzględniona w teście porównawczym i miała jeszcze wyższą MASE.

S. Kolassa - Przywróć Monikę
źródło
Świetna odpowiedź! Dzięki za zwięzłe streszczenie oryginalnego artykułu (posłuży jako pomocny skrót do wszystkich niewtajemniczonych). Wydaje się, że główna idea twojej odpowiedzi nie jest sprzeczna z moim przypuszczeniem (a raczej go rozszerza); w próbie jest coś wyjątkowego, czego nie docenia naiwny błąd prognozy w próbie.
Richard Hardy,
2

Nie odpowiedź, ale spisek po wezwaniu Stephana Kolassy do „spojrzenia na te serie”.
Kaggle tourism1 ma 518 rocznych szeregów czasowych, dla których chcemy przewidzieć 4 ostatnie wartości:

wprowadź opis zdjęcia tutaj

5th
Error4(y)14last 4|yiy5|
Error4(y)length(y)

Oczywiście bardzo krótkie serie - 12 11 7 7 7 ... w górnym rzędzie - trudno przewidzieć: nic dziwnego.
(Athanasopoulos, Hyndman, Song and Wu, The Tourism Forecasting Competition (2011, 23p) wykorzystali 112 z 518 rocznych serii, ale nie wiem, które z nich.)

Czy istnieją inne, nowsze kolekcje szeregów czasowych od 2010 roku, które mogą być warte obejrzenia?

denis
źródło
Dzięki! Nie znam odpowiedzi na twoje ostatnie pytanie.
Richard Hardy,
1
@denis: właśnie zobaczyłem twoje pytanie - możesz poprosić o dane na OpenData.SE .
S. Kolassa - Przywróć Monikę