AIC a walidacja krzyżowa w szeregach czasowych: przypadek małej próbki

23

Interesuje mnie wybór modelu w ustawieniach szeregów czasowych. Dla konkretności załóżmy, że chcę wybrać model ARMA z puli modeli ARMA o różnych rzędach opóźnień. Ostatecznym celem jest prognozowanie .

Wyboru modelu można dokonać za pomocą

  1. krzyżowa walidacja,
  2. stosowanie kryteriów informacyjnych (AIC, BIC),

wśród innych metod.

Rob J. Hyndman zapewnia sposób krzyżowej weryfikacji szeregów czasowych . W przypadku stosunkowo małych próbek wielkość próbki zastosowana w walidacji krzyżowej może być jakościowo różna od pierwotnej wielkości próbki. Na przykład, jeśli pierwotna wielkość próby wynosi 200 obserwacji, wówczas można pomyśleć o rozpoczęciu walidacji krzyżowej, biorąc pierwsze 101 obserwacji i rozszerzając okno do 102, 103, ..., 200 obserwacji, aby uzyskać 100 wyników walidacji krzyżowej. Oczywiście model, który jest dość oszczędny dla 200 obserwacji, może być zbyt duży dla 100 obserwacji, a zatem jego błąd walidacji będzie duży. W ten sposób krzyżowa walidacja prawdopodobnie będzie systematycznie faworyzować zbyt oszczędne modele. Jest to niepożądany efekt ze względu na niedopasowanie wielkości próbek .

Alternatywą dla krzyżowej weryfikacji jest zastosowanie kryteriów informacyjnych do wyboru modelu. Ponieważ zależy mi na prognozowaniu, użyłbym AIC. Mimo że AIC jest asymptotycznie równoważne z minimalizacją jednostopniowego prognozowania MSE poza próbą dla modeli szeregów czasowych (zgodnie z tym postem Roba J. Hyndmana), wątpię, aby miało to znaczenie od czasu próby Rozmiary, na których mi zależy, nie są aż tak duże ...

Pytanie: czy powinienem wybrać AIC zamiast krzyżowej weryfikacji szeregów czasowych dla małych / średnich próbek?

Kilka powiązanych pytań można znaleźć tutaj , tutaj i tutaj .

Richard Hardy
źródło
1
Wyobrażam sobie również, że BIC jest również równoważne z „dłuższą” prognozą (m-krok naprzód), biorąc pod uwagę jego link do wykluczenia krzyżowej weryfikacji. Jednak na 200 obserwacji prawdopodobnie nie robi dużej różnicy (kara 5 pensów zamiast 2 pensów).
prawdopodobieństwo prawdopodobieństwo
1
@CagdasOzgenc, zapytałem Roba J. Hyndmana o to, czy krzyżowa walidacja może systematycznie faworyzować zbyt oszczędne modele w kontekście podanym w PO i otrzymałem potwierdzenie, więc jest to dość zachęcające. Chodzi mi o to, że pomysł, który próbowałem wyjaśnić na czacie, jest ważny.
Richard Hardy
Istnieją teoretyczne powody faworyzowania AIC lub BIC, ponieważ jeśli zaczniemy od teorii prawdopodobieństwa i informacji, wówczas metryka oparta na tych ma dobrze znane właściwości statystyczne. Ale często jest tak, że mamy do czynienia z zestawem danych, który nie jest tak duży.
Analityk
3
Spędziłem sporo czasu próbując zrozumieć AIC. Równość wyrażenia opiera się na licznych przybliżeniach, które odpowiadają wersjom CLT. Osobiście uważam, że to sprawia, że ​​AIC jest bardzo wątpliwy w przypadku małych próbek.
Meh
1
@ IsabellaGhement, dlaczego tak powinno być? Nie ma powodu, aby ograniczać się do tego konkretnego zastosowania weryfikacji krzyżowej. Nie oznacza to oczywiście, że walidacji krzyżowej nie można oczywiście wykorzystać do oceny modelu.
Richard Hardy,

Odpowiedzi:

2

Pomijając rozważania teoretyczne, Kryterium Informacyjne Akaike jest po prostu prawdopodobieństwem karane stopniami swobody. Następnie AIC uwzględnia niepewność danych ( -2LL ) i przyjmuje założenie, że więcej parametrów prowadzi do wyższego ryzyka nadmiernego dopasowania ( 2k ). Weryfikacja krzyżowa sprawdza tylko wydajność zestawu testowego modelu, bez dalszych założeń.

Jeśli zależy ci przede wszystkim na prognozowaniu i możesz założyć, że zestawy testowe byłyby dość podobne do danych w świecie rzeczywistym, powinieneś przejść na walidację krzyżową. Możliwym problemem jest to, że gdy twoje dane są małe, a następnie dzieląc je, kończysz się niewielkimi zestawami szkoleniowymi i testowymi. Mniej danych do treningu jest złych, a mniej danych do zestawu testów sprawia, że ​​wyniki weryfikacji krzyżowej są bardziej niepewne (patrz Varoquaux, 2018 ). Jeśli twoja próbka testowa jest niewystarczająca, możesz zostać zmuszony do użycia AIC, ale pamiętaj o tym, co mierzy i jakie mogą być założenia.

Z drugiej strony, jak już wspomniano w komentarzach, AIC daje bezobjawowe gwarancje i nie jest tak w przypadku małych próbek. Małe próbki mogą również wprowadzać w błąd co do niepewności danych.

Tim
źródło
Dziękuję za odpowiedź! Czy miałbyś jakiś konkretny komentarz dotyczący niepożądanego efektu znacznie mniejszej wielkości próby podczas walidacji krzyżowej ze względu na charakter szeregów czasowych danych?
Richard Hardy
1

Hm - jeśli twoim ostatecznym celem jest przewidzieć, dlaczego w ogóle zamierzasz dokonać wyboru modelu? O ile mi wiadomo, zarówno w „tradycyjnej” literaturze statystycznej, jak i literaturze dotyczącej uczenia maszynowego, że uśrednianie modelu jest lepsze, jeśli chodzi o przewidywanie. Mówiąc prościej, uśrednianie modelu oznacza, że ​​szacujesz wszystkie wiarygodne modele, pozwalasz wszystkim przewidzieć i uśrednić ich przewidywania ważone ich względnymi dowodami modelowymi.

Przydatnym odniesieniem na początek jest https://journals.sagepub.com/doi/10.1177/0049124104268644

Wyjaśniają to po prostu i odnoszą się do odpowiedniej literatury.

Mam nadzieję że to pomoże.

StoryTeller0815
źródło
-1

Moim pomysłem jest zrobienie obu i zobaczenie. Można użyć AIC bezpośrednio. Im mniejszy AIC, tym lepszy model. Ale nie można polegać na AIC i powiedzieć, że taki model jest najlepszy. Tak więc, jeśli masz pulę modeli ARIMA, weź każdy z nich i sprawdź prognozowanie dla istniejących wartości i zobacz, który model przewiduje najbliższe istniejące dane szeregów czasowych. Po drugie, sprawdź również AIC i biorąc pod uwagę oba, wybierz dobry wybór. Nie ma twardych i szybkich zasad. Po prostu wybierz model, który przewiduje najlepsze.

Dovini Jayasinghe
źródło
Dziękuję za Twoją odpowiedź! Szukam zasadowego sposobu wyboru między różnymi metodami wyboru modelu. Chociaż masz rację, że nie ma twardych i szybkich zasad , potrzebujemy jasnych wytycznych w hipotetycznych idealnych warunkach, aby pomóc nam w trudnych sytuacjach w świecie rzeczywistym. Więc chociaż ogólnie zgadzam się z twoim stanowiskiem, nie uważam twojej odpowiedzi za szczególnie pomocną.
Richard Hardy