Dlaczego kryterium informacyjne (nieskorygowane

9

W modelach szeregów czasowych, takich jak ARMA-GARCH, do wyboru odpowiedniego opóźnienia lub kolejności modelu stosowane są różne kryteria informacyjne, takie jak AIC, BIC, SIC itp.

Moje pytanie jest bardzo proste, dlaczego nie używamy skorygowanego aby wybrać odpowiedni model? Możemy wybrać model, który prowadzi do wyższej wartości skorygowanego . Ponieważ zarówno skorygowane i kryterium informacyjne karają za dodatkową liczbę regresorów w modelu, gdzie poprzednio karano a później karano wartość prawdopodobieństwa. R2R2R2R2

Neeraj
źródło
Być może czegoś brakuje w odpowiedziach (poniżej), ale kwadraty R, a także skorygowane kwadraty R są odpowiednie dla stosunkowo ograniczonej klasy modeli szacowanych OLS, podczas gdy AIC, BIC itp. Są odpowiednie dla szerszej klasy uogólnionych liniowych modele oszacowane, być może, z ML lub wariantem.
Mike Hunter,

Odpowiedzi:

12

Twierdziłbym, że przynajmniej przy omawianiu modeli liniowych (takich jak modele AR) skorygowane i AIC nie różnią się tak bardzo.R2

Zastanów się, czy powinno być uwzględnione w Jest to równoważne z porównaniem Modele gdzie . Mówimy, że jest prawdziwym modelem, jeśliX2

y=X1(n×K1)β1+X2(n×K2)β2+ϵ
M1:y=X1β1+uM2:y=X1β1+X2β2+u,
E(u|X1,X2)=0M2β20. Zauważ, żeM1M2. Modele są zatem zagnieżdżone . Procedura wyboru modeluM^ jest regułą zależną od danych, która wybiera najbardziej prawdopodobny z kilku modeli.

Mówimy M^jest spójny, jeśli

limnP(M^=M1|M1)=1limnP(M^=M2|M2)=1

Rozważ skorygowane . To znaczy wybierz jeśli . Ponieważ monotonicznie zmniejsza się , procedura ta jest równoważna zminimalizowaniu . To z kolei jest równoważne zminimalizowaniu . W przypadku wystarczająco dużego , to ostatnie można zapisać jako gdzieR2M1R¯12>R¯22R¯2s2s2log(s2)n

log(s2)=log(σ^2nnK)=log(σ^2)+log(1+KnK)log(σ^2)+KnKlog(σ^2)+Kn,
σ^2jest estymatorem ML wariancji błędu. Wybór modelu na podstawie jest zatem asymptotycznie równoważny wybraniu modelu z najmniejszym . Ta procedura jest niespójna.R¯2log(σ^2)+K/n

Twierdzenie :

limnP(R¯12>R¯22|M1)<1

Dowód : gdzie następuje linia od drugiej do ostatniej, ponieważ statystyka jest statystyką LR w przypadku regresji liniowej, która następuje po asymptozie dystrybucja zerowa. CO BYŁO DO OKAZANIA

P(R¯12>R¯22|M1)P(log(s12)<log(s22)|M1)=P(nlog(s12)<nlog(s22)|M1)P(nlog(σ^12)+K1<nlog(σ^22)+K1+K2|M1)=P(n[log(σ^12)log(σ^22)]<K2|M1)P(χK22<K2)<1,
χK22

Rozważmy teraz kryterium Akaike, Tak więc AIC wymienia również redukcję SSR sugerowaną przez dodatkowe regresory w stosunku do „kary” , ”który wskazuje w przeciwnym kierunku. Dlatego wybierz jeśli , w przeciwnym razie wybierz .

AIC=log(σ^2)+2Kn
M1AIC1<AIC2M2

Można zauważyć, że jest również niespójny, kontynuując powyższy dowód w wierszu trzecim z . Skorygowane i wybierają zatem „duży” model z prawdopodobieństwem dodatnim, nawet jeśli jest prawdziwym modelem.AICP(nlog(σ^12)+2K1<nlog(σ^22)+2(K1+K2)|M1)R2AICM2M1

Ponieważ kara za złożoność w AIC jest nieco większa niż za skorygowane , może być jednak mniej podatna na przebarwienie. I ma inne miłe właściwości (minimalizujące rozbieżność KL do prawdziwego modelu, jeśli nie ma go w rozważanym zestawie modeli), które nie są omówione w moim poście.R2

Christoph Hanck
źródło
1
Świetna odpowiedź: niezbyt ciężka, ale wciąż dokładna! Gdyby był tam wczoraj, nie wysłałbym mojego.
Richard Hardy
A co ze sprawą ARMA-GARCH? Co zrobiliby przy wyborze warunków amung MA i GARCH? Radj2
Zachary Blumenfeld,
Nie odważyłbym się powiedzieć. Jak wyjaśnisz, nie jest nawet jasne, co R2 oznacza dla dopasowania takiego modelu.
Christoph Hanck
5

Kara w nie daje dobrych właściwości pod względem wyboru modelu, jakie posiada AIC lub BIC. Kara w wystarczy, aby uczynić obiektywnym estymatorem populacji gdy żaden regresor nie należy do modelu (zgodnie z postami Dave'a Gilesa na blogu „In What Sense” czy „Skorygowany” R-kwadrat jest bezstronny? ” i „ Więcej na temat właściwości „Skorygowanego” współczynnika determinacji ” ); jednak nie jest optymalnym wyborem modelu.Radj2Radj2Radj2R2Radj2

(Może istnieć dowód sprzeczności: jeśli AIC jest optymalny w jednym sensie, a BIC jest optymalny w innym, a nie jest równoważny z żadnym z nich, to nie jest optymalny w żadnym z nich tych dwóch zmysłów).Radj2Radj2

Richard Hardy
źródło
Ile parametrów GARCH muszę dodać, zanim wzrośnie ? :) .... Uważam, że podobny argument można by założyć o błędach skorelowanych (jak w modelu MA), model GLS nie zmniejsza sumy kwadratów reszt względem zwykłych najmniejszych kwadratów. Zarówno w MA, jak i GARCH, parametry (nie zmienne objaśniające, dla których dostosowuje się ) są dodawane do modelu. Parametry MA i GARCH nie są dodawane w celu zmniejszenia , lecz są dodawane w celu zwiększenia prawdopodobieństwa i / lub zmniejszenia ważonej sumy kwadratów reszt, aby odzwierciedlić brak terminów błędu. R2R2adjSSR
Zachary Blumenfeld,
Czy to faktycznie dotyczy oryginalnego postu lub mojej odpowiedzi? W każdym razie zgadzam się z twoimi punktami.
Richard Hardy
Chciałem zwrócić uwagę, że nie może być tak naprawdę używany do wybierania składników GARCH (i prawdopodobnie również elementów MA), ponieważ jest oparty na ułamku stosunku do które są stronniczymi estymatorami wariancji, gdy warunki błędu nie są iid. (jest to tylko szczególny przypadek uprzedzenia, o którym mówiłeś). W przypadku ARMA-GARCH nigdy nie wybrałbyś modelu z komponentami GARCH, nawet jeśli w danych występowała zmienność stochastyczna, ponieważ nie zwiększa ona . Zasadniczo zgadzam się z tobą, próbując podać konkretne przykłady. Radj2SSTSSRSSTR2
Zachary Blumenfeld