AIC, BIC, CIC, DIC, EIC, FIC, GIC, HIC, IIC - Czy mogę używać ich zamiennie?

47

Na str. 34 ze swojego PRNN Brian Ripley komentuje, że „AIC został nazwany przez Akaike (1974) jako„ Kryterium informacyjne ”, chociaż wydaje się, że powszechnie uważa się, że A oznacza Akaike”. Rzeczywiście, wprowadzając statystyki AIC, Akaike (1974, s. 719) wyjaśnia to

"IC stands for information criterion and A is added so that similar statistics, BIC, DIC
etc may follow".

Biorąc pod uwagę ten cytat jako prognozę sporządzoną w 1974 roku, warto zauważyć, że w ciągu zaledwie czterech lat Akaike (1977, 1978) i Schwarz (1978) zaproponowali dwa typy statystyki BIC (Bayesian IC). Zajęło to Spiegelhalter i in. (2002) znacznie dłużej, aby wymyślić DIC (Deviance IC). Chociaż pojawienie się kryterium CIC nie było przewidywane przez Akaike (1974), naiwnością byłoby sądzić, że nigdy nie było rozważane. Został zaproponowany przez Carlosa C. Rodrigueza w 2005 roku (zauważ, że R. Tibshirani i K. Knight's CIC (Covariance Inflation Criterion) to inna sprawa.)

Wiedziałem, że EIC (Empirical IC) zostało zaproponowane przez ludzi z Monash University około 2003 roku. Właśnie odkryłem Focused Information Criterion (FIC). Niektóre książki odnoszą się do Hannan i Quinn IC jako HIC, patrz np. Ten ). Wiem, że powinien istnieć GIC (Generalized IC) i właśnie odkryłem Kryterium Inwestowania w Informacje (IIC). Jest NIC, TIC i więcej.

Myślę, że mógłbym pokryć resztę alfabetu, więc nie pytam, gdzie sekwencja AIC, BIC, CIC, DIC, EIC, FIC, GIC, HIC, IIC, ... zatrzymuje się lub jakie litery alfabetu mają nie był używany lub był używany co najmniej dwa razy (np. E w EIC może oznaczać Extended lub Empirical). Moje pytanie jest prostsze i mam nadzieję, że bardziej praktyczne. Czy mogę korzystać z tych statystyk zamiennie, ignorując konkretne założenia, na podstawie których zostały wyprowadzone, konkretne sytuacje, w których miały one być stosowane, i tak dalej?

To pytanie jest częściowo uzasadnione przez Burnham i Anderson (2001), pisząc, że:

...the comparison of AIC and BIC model selection ought to be based on their performance 
properties such as mean square error for parameter estimation (includes prediction) and 
confidence interval coverage: tapering effects or not, goodness-of-fit issues, 
derivation of theory is irrelevant as it can be frequentist or Bayes. 

Wydaje się, że rozdział 7 monografii Hyndmana i in. Na temat wygładzania wykładniczego podąża za radą BA, patrząc na to, jak dobrze pięć alternatywnych układów scalonych (AIC, BIC, AICc, HQIC, LEIC) radzi sobie w wyborze modelu, który najlepiej prognozuje (mierzony przez nowo zaproponowany środek błędu zwany MASE), aby stwierdzić, że AIC częściej była lepszą alternatywą. (HQIC zgłoszono jako najlepszy wybór modelu tylko raz.)

Nie jestem pewien, jaki jest użyteczny cel ćwiczeń badawczych, które domyślnie traktują wszystkie ICc tak, jakby zostały uzyskane w celu odpowiedzi na jedno i to samo pytanie przy równoważnych zestawach założeń. W szczególności nie jestem pewien, w jaki sposób przydatne jest zbadanie predykcyjnej wydajności spójnego kryterium ustalania kolejności autoregresji (którą Hannan i Quinn wyprowadzili dla ergodycznych sekwencji stacjonarnych) poprzez użycie jej w kontekście niestacjonarnej wykładniczej modele wygładzania opisane i przeanalizowane w monografii Hyndmana i in. Czy coś mi umyka?

Bibliografia:

Akaike, H. (1974), Nowe spojrzenie na identyfikację modelu statystycznego, Transakcje IEEE na automatycznej kontroli 19 (6), 716-723.

Akaike, H. (1977), O zasadzie maksymalizacji entropii, w PR Krishnaiah, red., Zastosowania statystyki , t. 27, Amsterdam: Holandia Północna, ss. 27–41.

Akaike, H. (1978), Bayesowska analiza minimalnej procedury AIC, Annals of Institute of Statistics Mathematics 30 (1), 9-14.

Burnham, KP i Anderson, DR (2001) Informacje Kullback – Leibler jako podstawa silnego wnioskowania w badaniach ekologicznych, Wildlife Research 28, 111-119

Hyndman, RJ, Koehler, AB, Ord, JK & Snyder, RD Prognozowanie z wygładzaniem wykładniczym: podejście do przestrzeni stanów. New York: Springer, 2008

Ripley, rozpoznawanie wzorców BD i sieci neuronowe . Cambridge: Cambridge University Press, 1996

Schwarz, G. (1978), Szacowanie wymiaru modelu, Annals of Statistics 6 (2), 461-464.

Spiegelhalter, DJ, Best, NG, Carlin, BP i van der Linde, A. (2002), Bayesowskie miary złożoności modelu it (z dyskusją), Journal of the Royal Statistics Society. Seria B (metodologia statystyczna) 64 (4), 583–639.

Hibernacja
źródło
9
W rozmowie z Findley i Parzen ( projecteuclid.org/download/pdf_1/euclid.ss/1177010133 ) Akaike ujawniła, że ​​AIC była używana przez asystenta w jej programie FORTRAN. Nazwy zmiennych, takie jak IC domyślnie implikowane liczby całkowite; przedrostek taki jak A był wystarczający, aby poinstruować kompilator, że ilość jest rzeczywista. Chociaż nie zamierzał „Akaike”, zdał sobie sprawę, że oznacza to również po prostu „an”. (Nawiasem mówiąc, chociaż odniesienie to jest niejako antidotum na jedną niepoprawną historię, utrwala to pisownię Mallowsa jako Mallow.)
Nick Cox
To pytanie skłania do myślenia o „alfabetycznym projekcie eksperymentalnym”: doe.soton.ac.uk/elearning/section3.6.jsp
kjetil b halvorsen

Odpowiedzi:

36

Rozumiem, że AIC, DIC i WAIC oceniają to samo: oczekiwane odchylenie poza próbą związane z modelem. Jest to również to samo, co szacunki krzyżowe. W Gelman i in. (2013), mówią to wyraźnie:

Naturalnym sposobem oszacowania błędu prognozy poza próbą jest walidacja krzyżowa (patrz Perspektywy Baytiańskie, Lampten, 2002), ale badacze zawsze szukali alternatywnych środków, ponieważ walidacja krzyżowa wymaga powtarzalnych dopasowań modelu i może wpaść w kłopoty z rzadkimi danymi. Tylko ze względów praktycznych pozostaje miejsce na proste korekty błędów, takie jak AIC (Akaike, 1973), DIC (Spiegelhalter, Best, Carlin i van der Linde, 2002, van der Linde, 2005), a ostatnio WAIC (Watanabe, 2010), a wszystkie z nich można postrzegać jako przybliżenia różnych wersji walidacji krzyżowej (Stone, 1977).

BIC ocenia coś innego, co wiąże się z minimalną długością opisu. Gelman i in. mówić:

BIC i jego warianty różnią się od innych rozważanych tutaj kryteriów informacyjnych, ponieważ nie są motywowane oszacowaniem predykcyjnego fi, ale celem przybliżenia krańcowej gęstości prawdopodobieństwa danych, p (y), w ramach modelu, którego można użyć do oszacować względne prawdopodobieństwa tylne w zestawie dyskretnego porównania modelu.

Niestety nie wiem nic na temat innych kryteriów informacyjnych, które wymieniłeś.

Czy można stosować zamiennie kryteria informacyjne podobne do AIC? Opinie mogą się różnić, ale biorąc pod uwagę, że AIC, DIC, WAIC i walidacja krzyżowa wszystkie oceniają to samo, to tak, są mniej lub bardziej wymienne. BIC jest inny, jak wspomniano powyżej. Nie wiem o innych.

Dlaczego więcej niż jeden?

  • AIC działa dobrze, gdy masz maksymalne oszacowanie prawdopodobieństwa i płaskie priorytety, ale tak naprawdę nie ma nic do powiedzenia na temat innych scenariuszy. Kara jest również zbyt mała, gdy liczba parametrów zbliża się do liczby punktów danych. AICc nadmiernie koryguje to, co może być dobre lub złe w zależności od twojej perspektywy.

  • DIC stosuje mniejszą karę, jeśli części modelu są silnie ograniczone przez priory (np. W niektórych modelach wielopoziomowych, w których szacowane są składniki wariancji). Jest to dobre, ponieważ mocno ograniczone parametry tak naprawdę nie stanowią pełnego stopnia swobody. Niestety, formuły zwykle stosowane w DIC zakładają, że tył jest zasadniczo gaussowski (tj. Że jest dobrze opisany przez swoją średnią), więc w niektórych sytuacjach można uzyskać dziwne wyniki (np. Kary ujemne).

  • WAIC wykorzystuje całą gęstość boczną bardziej skutecznie niż DIC, więc Gelman i in. wolę to, chociaż w niektórych przypadkach obliczenie może być uciążliwe.

  • Walidacja krzyżowa nie opiera się na żadnej konkretnej formule, ale może być obliczeniowo niemożliwa dla wielu modeli.

Moim zdaniem decyzja o wyborze jednego z kryteriów podobnych do AIC zależy całkowicie od tego rodzaju praktycznych kwestii, a nie od matematycznego dowodu, że jedno z nich będzie lepsze od drugiego.

Referencje :

Gelman i in. Zrozumienie predykcyjnych kryteriów informacyjnych dla modeli bayesowskich. Dostępne na stronie http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.295.3501&rep=rep1&type=pdf

David J. Harris
źródło
3
Oprócz odniesienia Gelman i in. Zrozumienie predykcyjnych kryteriów informacyjnych dla modeli bayesowskich znajduje się również w najnowszym artykule Aki Vehtari, Andrew Gelman i Jonah Gabry (2016). Praktyczna ocena modelu Bayesa przy użyciu krzyżowej walidacji typu out-one-out i WAIC. W Statistics and Computing, doi: 10.1007 / s11222-016-9696-4. nadruk arXiv arXiv: 1507.04544. arxiv.org/abs/1507.04544 W tym dokumencie pokazano również, że niezawodne sprawdzanie poprawności krzyżowej można obliczyć w nieistotnym czasie dla wielu modeli.
Aki Vehtari,
4

„Zamiennie” to zbyt mocne słowo. Wszystkie są kryteriami, które mają na celu porównanie modeli i znalezienie „najlepszego” modelu, ale każdy definiuje „najlepszy” inaczej i może identyfikować różne modele jako „najlepsze”.

Emil Friedman
źródło
0

„Zaproponuj referendum”. Po prostu głosuj! ;-) Podobało mi się CAIC (Bozdogan, 1987) i BIC wyłącznie z mojej osobistej praktyki, ponieważ kryteria te stanowią poważną karę za złożoność, dostaliśmy więcej parsimony, ale zawsze wyświetlałem listę dobrych modeli - do delty 4-6 -8 (zamiast 2). Na etapie badania parametrów (ponieważ mamy „dobre rozciąganie modeli kandydujących”) uśrednianie MM (B&A) często prawie nic się nie zmienia. Nieco sceptycznie podchodzę zarówno do klasycznego AIC, jak i AICc (H&T, spopularyzowane przez B&A), ponieważ często dają bardzo „grubą warstwę kremu”. ;-)

Ivan Kshnyasev
źródło