Czy jest jakiś powód, aby preferować AIC lub BIC nad drugim?

222

AIC i BIC są metodami oceny dopasowania modelu karanymi za liczbę oszacowanych parametrów. Jak rozumiem, BIC karze modele bardziej za wolne parametry niż AIC. Czy poza preferencjami opartymi na rygorystycznych kryteriach istnieją jeszcze inne powody, by preferować AIC zamiast BIC lub odwrotnie?

russellpierce
źródło
1
Myślę, że właściwsze jest nazywanie tej dyskusji „selekcją funkcji” lub selekcją „zmiennych towarzyszących”. Dla mnie wybór modelu jest znacznie szerszy i obejmuje specyfikację rozkładu błędów, formę funkcji łącza i formę zmiennych towarzyszących. Kiedy mówimy o AIC / BIC, zwykle znajdujemy się w sytuacji, w której wszystkie aspekty budowy modelu są ustalone, z wyjątkiem wyboru zmiennych towarzyszących.
6
Decyzja o określonych współzmiennych, które należy uwzględnić w modelu, często wiąże się z terminem wyboru modelu i istnieje wiele książek z wyborem modelu w tytule, które decydują przede wszystkim o tym, jakie współzmienne / parametry modelu należy uwzględnić w modelu.
Michael Chernick
Nie wiem, czy twoje pytanie dotyczy konkretnie filogenezy (bioinformatyki), ale jeśli tak, to badanie może dostarczyć pewnych przemyśleń na ten temat: ncbi.nlm.nih.gov/pmc/articles/PMC2925852
tlorin
Połączone pytanie dotyczy także WWiI. Zaktualizuj tekst pytania i podaj definicję WWI, poprzedzając link.
smci
1
@smci Dodałem stats.stackexchange.com/questions/383923/…, aby umożliwić osobom zainteresowanym wglądanie w pytania związane z WWI.
russellpierce

Odpowiedzi:

179

Twoje pytanie sugeruje, że AIC i BIC próbują odpowiedzieć na to samo pytanie, co nie jest prawdą. AIC próbuje wybrać model, który najlepiej opisuje nieznaną rzeczywistość wielowymiarową. Oznacza to, że rzeczywistość nigdy nie znajduje się w zbiorze rozważanych modeli kandydujących. Przeciwnie, BIC próbuje znaleźć PRAWDZIWY model wśród zbioru kandydatów. Wydaje mi się dość dziwne założenie, że rzeczywistość powstaje w jednym z modeli zbudowanych po drodze przez naukowców. To jest prawdziwy problem dla BIC.

Niemniej jednak jest wielu badaczy, którzy twierdzą, że BIC jest lepszy niż AIC, wykorzystując jako argument symulacje odzyskiwania modelu. Symulacje te obejmują generowanie danych z modeli A i B, a następnie dopasowanie obu zestawów danych do dwóch modeli. Przeregulowanie występuje, gdy niewłaściwy model lepiej pasuje do danych niż do generowania. Celem tych symulacji jest sprawdzenie, jak dobrze AIC i BIC poprawiają te naddatki. Zazwyczaj wyniki wskazują na to, że AIC jest zbyt liberalny i nadal często woli bardziej złożony, niewłaściwy model niż prostszy, prawdziwy model. Na pierwszy rzut oka te symulacje wydają się być naprawdę dobrymi argumentami, ale problem z nimi polega na tym, że nie mają one znaczenia dla AIC. Jak powiedziałem wcześniej, AIC nie uważa, że ​​którykolwiek z testowanych modeli kandydujących jest w rzeczywistości prawdziwy. Według AIC wszystkie modele są przybliżeniami do rzeczywistości, a rzeczywistość nigdy nie powinna mieć niskiej wymiarowości. Co najmniej niższy niż niektóre modele kandydujące.

Polecam używać zarówno AIC, jak i BIC. W większości przypadków będą się zgadzać na preferowany model, a jeśli nie, po prostu to zgłoś.

Jeśli jesteś niezadowolony zarówno z AIC, jak i BIC i masz wolny czas na inwestowanie, sprawdź Minimalna długość opisu (MDL), zupełnie inne podejście, które pokonuje ograniczenia AIC i BIC. Istnieje kilka miar wynikających z MDL, takich jak znormalizowane maksymalne prawdopodobieństwo lub przybliżenie informacji Fishera. Problem z MDL polega na tym, że jest on wymagający matematycznie i / lub intensywny obliczeniowo.

Jeśli jednak chcesz trzymać się prostych rozwiązań, dobrym sposobem oceny elastyczności modelu (zwłaszcza gdy liczba parametrów jest równa, czyniąc AIC i BIC bezużytecznymi) jest wykonywanie parametrycznego ładowania początkowego, który jest dość łatwy do wdrożenia. Oto link do artykułu na ten temat.

Niektóre osoby opowiadają się za stosowaniem weryfikacji krzyżowej. Ja osobiście z niego korzystałem i nie mam nic przeciwko temu, ale problem polega na tym, że wybór wśród zasady wycinania próbek (pomijanie, składanie w K, itp.) Jest zasadą bezproblemową.

Dave Kellen
źródło
7
Różnicę można postrzegać wyłącznie z matematycznego punktu widzenia - BIC wyprowadzono jako asymptotyczne rozwinięcie log P (danych), w którym próbkowane są prawdziwe parametry modelu zgodnie z arbitralnym zniknięciem wcześniej, podobnie AIC wyprowadzono z ustalonymi prawdziwymi parametrami
Jarosław Bułatow
4
Powiedziałeś, że „jest wielu badaczy, którzy twierdzą, że BIC jest lepszy niż AIC, wykorzystując jako argument symulacje odzyskiwania modelu. Symulacje te polegają na generowaniu danych z modeli A i B, a następnie dopasowaniu obu zestawów danych do dwóch modeli”. Czy byłbyś tak uprzejmy, aby wskazać niektóre referencje. Jestem nimi ciekawa! :)
deps_stats
2
Nie wierzę w stwierdzenia zawarte w tym poście.
user9352
16
(-1) Świetne wyjaśnienie, ale chciałbym podważyć twierdzenie. @Dave Kellen Czy mógłbyś podać odniesienie do miejsca, w którym model TRUE musi znajdować się w zestawie do BIC? Chciałbym to zbadać, ponieważ w tej książce autorzy dają przekonujący dowód, że tak nie jest.
gui11aume
2
Świetna odpowiedź, ale zdecydowanie nie zgadzam się ze stwierdzeniem „rzeczywistość nigdy nie powinna mieć niskiej wymiarowości”. Zależy to od tego, do jakiej „nauki” stosujesz modele yoru
David
76

Chociaż zarówno AIC, jak i BIC są oparte na oszacowaniu maksymalnego prawdopodobieństwa i karają wolne parametry w celu walki z nadmiernym dopasowaniem, robią to w sposób, który skutkuje istotnie odmiennym zachowaniem. Spójrzmy na jedną powszechnie prezentowaną wersję metod (której wyniki zakładają normalnie rozłożone błędy i inne dobrze zachowujące się założenia):

  • AIC = -2 * ln (prawdopodobieństwo) + 2 * k,

i

  • BIC = -2 * ln (prawdopodobieństwo) + ln (N) * k,

gdzie:

  • k = modelowe stopnie swobody
  • N = liczba obserwacji

Najlepszym modelem w porównywanej grupie jest ten, który minimalizuje te wyniki, w obu przypadkach. Oczywiście AIC nie zależy bezpośrednio od wielkości próbki. Co więcej, ogólnie rzecz biorąc, AIC stwarza niebezpieczeństwo, że może się on przeregulować, podczas gdy BIC stanowi niebezpieczeństwo, że może się on nie nadawać, po prostu z powodu tego, w jaki sposób penalizują wolne parametry (2 * k w AIC; ln (N) * k w BIC). Diachronicznie, w miarę wprowadzania danych i ponownego obliczania wyników, przy stosunkowo niskim N (7 i mniejszym) BIC jest bardziej tolerancyjny dla wolnych parametrów niż AIC, ale mniej tolerancyjny przy wyższym N (jako logarytm naturalny N pokonuje 2).

Ponadto AIC ma na celu znalezienie najlepszego modelu aproksymacji do nieznanego procesu generowania danych (poprzez zminimalizowanie oczekiwanej rozbieżności KL ). Jako taki nie jest zbieżny z prawdopodobieństwem do prawdziwego modelu (zakładając, że jeden jest obecny w grupie ocenianej), podczas gdy BIC zbiega się, gdy N dąży do nieskończoności.

Tak więc, jak w wielu pytaniach metodologicznych, które należy preferować, zależy od tego, co próbujesz zrobić, jakie inne metody są dostępne i od tego, czy którakolwiek z opisanych cech (konwergencja, względna tolerancja dla wolnych parametrów, minimalizująca oczekiwaną rozbieżność KL ), mów do swoich celów.

John L. Taylor
źródło
8
niezła odpowiedź. możliwym alternatywnym podejściem do AIC i BIC jest to, że AIC mówi, że „efekty uboczne” nie stają się łatwiejsze do wykrycia wraz ze wzrostem wielkości próby (lub że nie obchodzi nas, czy efekty uboczne wejdą do modelu), BIC twierdzi, że tak. Można zobaczyć z perspektywy OLS, jak w pracy Raftery'ego z 1994 r., Efekt staje się w przybliżeniu „znaczący” (tj. Preferowany większy model) w AIC, jeśli jego t-statystyka jest większa niż , BIC, jeśli jego t-statystyka wynosi większa niż | t| >|t|>2|t|>log(n)
probabilityislogic
2
Dobra odpowiedź, +1. Szczególnie podoba mi się zastrzeżenie, czy prawdziwy model jest rzeczywiście obecny w badanej grupie. Twierdziłbym, że „prawdziwy model” nigdy nie jest obecny. (Box & Draper powiedział, że „wszystkie modele są fałszywe, ale niektóre są użyteczne”, a Burnham i Anderson nazywają to „zwężającymi się rozmiarami efektów”). Dlatego nie jestem pod wrażeniem konwergencji BIC przy nierealistycznych założeniach, a bardziej celami AIC w najlepszym przybliżeniu spośród modeli, na które faktycznie patrzymy.
Stephan Kolassa
68

Moje szybkie wyjaśnienie brzmi

  • AIC jest najlepszy do przewidywania, ponieważ jest asymptotycznie równoważny z walidacją krzyżową.
  • BIC jest najlepszy do wyjaśnienia, ponieważ pozwala na spójne oszacowanie leżącego u podstaw procesu generowania danych.
Rob Hyndman
źródło
AIC jest równoważne z K-krotną walidacją krzyżową, BIC jest równoważne z krzyżową walidacją leve-one-out. Oba twierdzenia mają jednak zastosowanie tylko w przypadku regresji liniowej.
5
mbq, to ​​AIC / LOO (nie LKO ani K-fold) i nie sądzę, żeby dowód w Stone 1977 opierał się na modelach liniowych. Nie znam szczegółów wyniku BIC.
ars
11
ars ma rację. Jest to AIC = LOO i BIC = K-krotnie, gdzie K jest skomplikowaną funkcją wielkości próbki.
Rob Hyndman
Gratulacje, masz mnie; Spieszyłem się z tym, więc popełniłem ten błąd, oczywiście tak napisał Rob. Niemniej jednak pochodzi z Shao 1995, gdzie przyjęto założenie, że model jest liniowy. Przeanalizuję Stone, ale myślę, że ty, ars, możesz mieć rację, ponieważ LOO w mojej dziedzinie ma równie złą reputację jak różne * układy scalone.
Opis na Wikipedii ( en.wikipedia.org/wiki/… ) sprawia, że ​​wydaje się, że krzyżowa walidacja metodą K-fold jest swego rodzaju powtórzeniem symulacji w celu oszacowania stabilności parametrów. Rozumiem, dlaczego AIC miałoby być stabilne z LOO (ponieważ LOO można z łatwością przeprowadzić wyczerpująco), ale nie rozumiem, dlaczego BIC byłby stabilny z K-fold, chyba że K jest również wyczerpujący. Czy złożona formuła leżąca u podstaw wartości K czyni ją wyczerpującą? A może dzieje się coś jeszcze?
russellpierce
16

Z mojego doświadczenia wynika, że ​​BIC powoduje poważne niedostateczne dopasowanie, a AIC zwykle osiąga dobre wyniki, gdy celem jest maksymalizacja dyskryminacji predykcyjnej.

Frank Harrell
źródło
1
Bardzo opóźnione, ale skoro nadal zajmuje wysokie miejsce w Google, nie masz nic przeciwko opracowaniu obszaru, w którym pracujesz? Jestem ciekawy, czy istnieje jakiś efekt domeny, na który powinniśmy spojrzeć.
verybadatthis
@verybadatthis: biostatystyka kliniczna (wystarczy google „Frank Harrell”, jest obecny w Internecie)
Ben Bolker
13

Informacyjną i dostępną „pochodną” AIC i BIC autorstwa Briana Ripleya można znaleźć tutaj: http://www.stats.ox.ac.uk/~ripley/Nelder80.pdf

Ripley przedstawia kilka uwag na temat założeń leżących u podstaw wyników matematycznych. W przeciwieństwie do tego, co wskazują niektóre inne odpowiedzi, Ripley podkreśla, że ​​AIC opiera się na założeniu, że model jest prawdziwy. Jeśli model nie jest prawdziwy, ogólne obliczenia ujawnią, że „liczbę parametrów” należy zastąpić bardziej skomplikowaną wielkością. Niektóre odniesienia podano w slajdach Ripleys. Należy jednak zauważyć, że w przypadku regresji liniowej (ściśle mówiąc ze znaną wariancją), na ogół, bardziej skomplikowana ilość upraszcza być równa liczbie parametrów.

NRH
źródło
3
(+1) Jednak Ripley myli się w punkcie, w którym mówi, że modele muszą być zagnieżdżone. Nie ma takiego ograniczenia w pierwotnej derywatyzacji Akaike, lub, dla jasności, w derywacji za pomocą AIC jako estymatora dywergencji Kullbacka-Leiblera. W rzeczywistości w artykule, nad którym pracuję, pokazuję nieco „empirycznie”, że AIC można nawet zastosować do wyboru modelu struktur kowariancji (różna liczba parametrów, wyraźnie nie zagnieżdżone modele). Z tysięcy symulacji szeregów czasowych, które przeprowadziłem z różnymi strukturami kowariancji, w żadnej z nich AIC nie pomylił się ...
Néstor
... jeśli „poprawny” model faktycznie znajduje się na zestawie modeli (to jednak oznacza również, że dla modeli, nad którymi pracuję, wariancja estymatora jest bardzo mała ... ale to tylko kwestia techniczna Szczegół).
Néstor
1
@ Néstor, zgadzam się. Zagadnienie zagnieżdżania modeli jest dziwne.
NRH
3
Wybierając struktury kowariancji dla danych podłużnych (modele efektów mieszanych lub uogólnione najmniejsze kwadraty) AIC może łatwo znaleźć niewłaściwą strukturę, jeśli istnieją więcej niż 3 struktury kandydujące. Jeśli jest ich więcej niż 3, będziesz musiał użyć paska startowego lub innych środków, aby skorygować niepewność modelu spowodowaną użyciem AIC do wyboru struktury.
Frank Harrell
8

Rzeczywiście jedyną różnicą jest to, że BIC jest rozszerzony AIC, aby uwzględnić liczbę obiektów (próbek). Powiedziałbym, że chociaż oba są dość słabe (w porównaniu do na przykład walidacji krzyżowej), lepiej jest używać AIC, niż więcej osób będzie znało skrót - w rzeczywistości nigdy nie widziałem artykułu ani programu, w którym BIC by być użytym (wciąż przyznaję, że jestem stronniczy na problemy, w których takie kryteria po prostu nie działają).

Edycja: AIC i BIC są równoważne walidacji krzyżowej, pod warunkiem dwóch ważnych założeń - kiedy są zdefiniowane, więc kiedy model ma największe prawdopodobieństwo i gdy jesteś zainteresowany jedynie wydajnością modelu na danych treningowych. W przypadku zrzucenia niektórych danych do pewnego rodzaju konsensusu są one całkowicie w porządku.
W przypadku tworzenia maszyny predykcyjnej dla jakiegoś rzeczywistego problemu, pierwszy jest fałszywy, ponieważ twój zestaw treningowy stanowi jedynie skrawek informacji o problemie, z którym masz do czynienia, więc po prostu nie możesz zoptymalizować swojego modelu; druga jest fałszywa, ponieważ oczekujesz, że Twój model będzie obsługiwał nowe dane, dla których nie można nawet oczekiwać, że zestaw treningowy będzie reprezentatywny. I w tym celu wymyślono CV; symulować zachowanie modelu w konfrontacji z niezależnymi danymi. W przypadku wyboru modelu CV daje nie tylko przybliżoną jakość, ale także rozkład przybliżenia jakości, więc ma tę wielką zaletę, że może powiedzieć: „Nie wiem, bez względu na nowe dane, każde z nich może być lepszy."

Scortchi
źródło
Czy to oznacza, że ​​dla niektórych wielkości próbek BIC może być mniej rygorystyczny niż AIC?
russellpierce
1
Rygorystyczne nie jest tutaj najlepszym słowem, raczej bardziej tolerancyjnym dla parametrów; wciąż, tak, dla powszechnych definicji (z logiem naturalnym) dzieje się tak dla 7 i mniej obiektów.
AIC jest asymptotycznie równoważny z walidacją krzyżową.
Rob Hyndman
5
@mbq - Nie widzę, jak krzyżowa walidacja rozwiązuje problem „niereprezentatywności”. Jeśli twoje dane treningowe nie są reprezentatywne dla danych, które otrzymasz w przyszłości, możesz zweryfikować krzyżowo wszystko, co chcesz, ale nie będzie reprezentatywne dla „błędu uogólnienia”, z którym faktycznie będziesz się mierzyć (jako „ prawdziwe ”nowe dane nie są reprezentowane przez niemodelowaną część danych szkoleniowych). Uzyskanie reprezentatywnego zestawu danych jest niezbędne, jeśli chcesz dobrze przewidywać.
probabilityislogic
1
@mbq - chodzi mi o to, że wydaje się, że „delikatnie odrzucasz” wybór oparty na układzie scalonym w oparciu o alternatywę, która nie rozwiązuje problemu. Walidacja krzyżowa jest dobra (chociaż warto ją obliczyć?), Ale nie można reprezentować niereprezentatywnych danych przy użyciu procesu opartego na danych. Przynajmniej niezawodnie. Musisz mieć wcześniejsze informacje, które pokażą, w jaki sposób są one niereprezentatywne (lub bardziej ogólnie, jakie logiczne powiązania mają dane „niereprezentatywne” z rzeczywistymi danymi, które będziesz obserwować).
probabilityislogic
5

Jak wspomniałeś, AIC i BIC są metodami karania modeli za posiadanie większej liczby zmiennych regresora. W tych metodach stosowana jest funkcja kary, która jest funkcją liczby parametrów w modelu.

  • Przy stosowaniu AIC funkcją kary jest z (p) = 2 p .

  • Podczas stosowania BIC funkcją kary jest z (p) = p ln ( n ), która polega na interpretacji kary jako wynikającej z wcześniejszych informacji (stąd nazwa Bayesowskie Kryterium Informacji).

Gdy n jest duże, oba modele będą dawać zupełnie inne wyniki. Następnie BIC nakłada znacznie większą karę na złożone modele, a zatem prowadzi do prostszych modeli niż AIC. Jednak, jak stwierdzono w Wikipedii na temat BIC :

należy zauważyć, że w wielu aplikacjach ... BIC ogranicza się do wyboru maksymalnego prawdopodobieństwa, ponieważ liczba parametrów jest równa dla interesujących modeli.

Amanda
źródło
4
należy zauważyć, że AIC jest również równoważne ML, gdy wymiar się nie zmienia. Twoja odpowiedź wydaje się, że dotyczy to tylko BIC.
probabilityislogic
5

Z tego, co mogę powiedzieć, nie ma dużej różnicy między AIC i BIC. Oba są matematycznie wygodnymi przybliżeniami, które można wykonać w celu skutecznego porównania modeli. Jeśli dają różne „najlepsze” modele, prawdopodobnie oznacza to, że masz dużą niepewność modelu, co jest ważniejsze niż martwienie się o to, czy powinieneś użyć AIC czy BIC. Osobiście bardziej podoba mi się BIC, ponieważ pyta o więcej (mniej) modelu, czy ma więcej (mniej) danych, aby dopasować się do jego parametrów - jak nauczyciel, który prosi o wyższy (niższy) standard wydajności, jeśli jego uczeń ma więcej (mniej) ) czas na poznanie tematu. Dla mnie to wydaje się intuicyjne. Ale jestem pewien, że istnieją również równie intuicyjne i przekonujące argumenty dla AIC, biorąc pod uwagę jego prostą formę.

Teraz za każdym razem, gdy dokonasz przybliżenia, na pewno będą pewne warunki, gdy przybliżenia te będą śmieciami. Można to z pewnością zauważyć w przypadku AIC, gdzie istnieje wiele „korekt” (AICc) w ​​celu uwzględnienia pewnych warunków, które powodują, że pierwotne przybliżenie jest złe. Jest to również obecne w przypadku BIC, ponieważ istnieją różne inne dokładniejsze (ale wciąż wydajne) metody, takie jak aproksymacje w pełni Laplace'a do mieszanin g-priorów Zellnera (BIC jest przybliżeniem metody aproksymacji Laplace'a dla całek).

Jednym z miejsc, w którym oba są badziewne, jest posiadanie znacznych wcześniejszych informacji o parametrach w danym modelu. AIC i BIC niepotrzebnie karają modele, w których parametry są częściowo znane w porównaniu z modelami, które wymagają oszacowania parametrów na podstawie danych.

jedną rzeczą, którą moim zdaniem należy zauważyć, jest to, że BIC nie zakłada, że ​​„prawdziwy” model a) istnieje lub b) jest zawarty w zestawie modeli. BIC jest po prostu przybliżeniem zintegrowanego prawdopodobieństwa (D = Dane, M = model, A = założenia). Tylko mnożąc przez wcześniejsze prawdopodobieństwo, a następnie normalizując, można uzyskać . BIC po prostu reprezentuje prawdopodobieństwo danych, jeśli twierdzenie sugerowane przez symbol jest prawdziwe. Z logicznego punktu widzenia wszystkie propozycje, które doprowadziłyby do BIC jako przybliżenia, są jednakowo obsługiwane przez dane. Więc jeśli podam i jako zdaniaP(D|M,A)P(M|D,A)MMA

Mi:the ith model is the best description of the dataA:out of the set of K models being considered, one of them is the best

A następnie nadal przypisuj te same modele prawdopodobieństwa (te same parametry, te same dane, te same przybliżenia itp.), Otrzymam ten sam zestaw wartości BIC. Dopiero poprzez nadanie jakiegoś unikalnego znaczenia logicznej literze „M” wciągają się nieistotne pytania dotyczące „prawdziwego modelu” (echa „prawdziwej religii”). Jedyną rzeczą, która „definiuje” M, są równania matematyczne, które wykorzystują go w swoich obliczeniach - i to rzadko kiedy wyodrębnia jedną i tylko jedną definicję. Mógłbym równie dobrze przedstawić propozycję przewidywania dotyczącą M („i-ty model da najlepsze prognozy”). Osobiście nie widzę, jak to zmieni jakiekolwiek prawdopodobieństwo, a zatem, jak dobry lub zły będzie BIC (AIC również w tym przypadku - chociaż AIC opiera się na innej pochodnej)

A poza tym, co jest nie tak ze stwierdzeniem Jeśli prawda model jest w zestawie Zastanawiam, to istnieje prawdopodobieństwo 57%, że jest modelem B . Wydaje mi się to wystarczająco rozsądne, lub możesz wybrać bardziej „miękką” wersję, istnieje 57% prawdopodobieństwo, że model B jest najlepszy z rozważanego zestawu

Ostatni komentarz: Myślę, że znajdziesz tyle opinii na temat AIC / BIC, jak wielu ludzi o nich wie.

prawdopodobieństwo prawdopodobieństwa
źródło
4

AIC należy rzadko stosować, ponieważ tak naprawdę jest on ważny tylko asymptotycznie. Jest prawie zawsze lepiej użyć AICC (AIC z c orrection o skończonej wielkości próby). AIC ma tendencję do nadmiernej parametryzacji: ten problem jest znacznie zmniejszony dzięki AICc. Głównym wyjątkiem od korzystania z AICc jest to, że podstawowe dystrybucje są silnie leptokurtyczne. Więcej informacji na ten temat można znaleźć w książce Wybór modelu autorstwa Burnham i Anderson.

użytkownik 2875
źródło
1
Mówisz więc, że AIC nie karze w wystarczającym stopniu modeli za parametry, więc użycie go jako kryterium może prowadzić do nadparametryzacji. Zamiast tego zalecamy użycie AICc. Wracając do mojego pierwszego pytania, skoro BIC jest już bardziej rygorystyczny niż AIC, czy istnieje powód, aby używać AICc zamiast BIC?
russellpierce
1
Co rozumiesz przez AIC, obowiązuje asymptotycznie. Jak zauważył John Taylor AIC jest niespójne. Myślę, że jego koomisje kontrastujące AIC z BIC są najlepsze. Nie widzę, aby oba były takie same jak weryfikacja krzyżowa. Wszystkie mają fajną właściwość, którą zwykle osiągają w modelu o wartości mniejszej niż maksymalna liczba zmiennych. Ale wszyscy mogą wybierać różne modele.
Michael Chernick
4

AIC i BIC to kryteria informacyjne do porównywania modeli. Każda z nich próbuje zrównoważyć dopasowanie modelu i oszczędność, a każda z nich ma różny wpływ na liczbę parametrów.

AIC to Akaike Information Criterion formuła jest gdzie jest liczbą parametrów, a oznacza maksymalne prawdopodobieństwo; dzięki tej formule mniejsze jest lepsze. (Pamiętam, że niektóre programy generują przeciwne , ale nie pamiętam szczegółów)

AIC=2k2ln(L)
kL2ln(L)2k

BIC to Bayesian Information Criterion, formuła to i faworyzuje bardziej oszczędne modele niż AIC

BIC=kln(n)2ln(L)

Nie słyszałem o KIC.

Peter Flom
źródło
też nie słyszałem o KIC, ale w przypadku AIC i BIC spójrz na powiązane pytanie lub wyszukaj AIC. stats.stackexchange.com/q/577/442
Henrik
1
(Ta odpowiedź została połączona z duplikatu pytania, które
wymagało
3
Modele nie muszą być zagnieżdżane w celu porównania z AIC lub BIC.
Makro
1

Bardzo krótko:

  • AIC w przybliżeniu minimalizuje błąd prognozowania i jest asymptotycznie równoważny z pominięciem krzyżowej walidacji z pominięciem 1 (LOOCV) (Stone 1977). Nie jest to jednak spójne, co oznacza, że ​​nawet przy bardzo dużej ilości danych ( do nieskończoności) i jeśli prawdziwy model należy do modeli kandydujących, prawdopodobieństwo wyboru prawdziwego modelu na podstawie kryterium AIC nie zbliżyłoby się do 1 Zamiast tego zachowałby zbyt wiele funkcji.n
  • BIC jest przybliżeniem zintegrowanego marginalnego prawdopodobieństwa , co w przypadku płaskiego wcześniejszego równoznaczne jest z poszukiwaniem modelu maksymalizującego . Jego zaletą jest to, że jest ona zgodna, co oznacza, że przy bardzo dużej ilości danych ( udających się do nieskończoności), a jeśli prawdziwy model jest jednym z modeli kandydujących, prawdopodobieństwo wyboru prawdziwego modelu w oparciu o BIC kryterium zbliży 1 Byłoby to jednak nieznacznie kosztować prognozowanie wydajności, gdyby było małe. BIC jest również równoważny z pominięciem krzyżowej walidacji typu k-out (LKOCV), gdzie , przyP(D|M,A)(D=Data,M=model,A=assumptions)P(M|D,A)nnk=n[11/(log(n)1)]n=wielkość próby (Shao 1997). Istnieje wiele różnych wersji BIC, które sprowadzają się do dokonywania różnych przybliżeń marginalnego prawdopodobieństwa lub zakładania różnych priorytetów. Np. Zamiast stosowania wcześniejszego munduru wszystkich możliwych modeli, jak w oryginalnym BIC, EBIC stosuje wcześniejszy mundur modeli o stałym rozmiarze ( Chen i Chen 2008 ), podczas gdy BICq wykorzystuje rozkład Bernouilli określający wcześniejsze prawdopodobieństwo dla każdego parametru, który ma być zawarty .

Zauważ, że w kontekście GLM penalizowanych przez L0 (gdzie penalizujesz prawdopodobieństwo logarytmiczne twojego modelu na podstawie lambda * liczby niezerowych współczynników, tj. Normy L0 twoich współczynników modelu), możesz bezpośrednio zoptymalizować cel AIC lub BIC , jako dla AIC i dla BIC, co dzieje się w pakiecie L0ara R. Dla mnie ma to większy sens niż to, co np. Robią w przypadku LASSO lub regresji elastycznej sieci w glmnet , gdzie po optymalizacji jednego celu (LASSO lub regresji elastycznej sieci) następuje dostrojenie parametru (ów) regularyzacji w oparciu o inne cel (który np. minimalizuje błąd prognozy weryfikacji krzyżowej, AIC lub BIC).lambda=2lambda=log(n)

Syed (2011) na stronie 10 zauważa „Możemy również spróbować uzyskać intuicyjne zrozumienie asymptotycznej równoważności, zauważając, że AIC minimalizuje rozbieżność Kullbacka-Leiblera między modelem przybliżonym a modelem prawdziwym. Rozbieżność Kullbacka-Leiblera nie jest miara odległości między rozkładami, ale tak naprawdę miara utraty informacji, gdy model przybliżony jest używany do modelowania rzeczywistości naziemnej. Weryfikacja krzyżowa typu „jeden do jednego” wykorzystuje maksymalną ilość danych do treningu, aby przewidzieć jedną obserwację. ,n1obserwacje jako standarty dla modelu przybliżonego w stosunku do pojedynczej obserwacji reprezentującej „rzeczywistość”. Możemy myśleć o tym jako o uczeniu się maksymalnej ilości informacji, jakie można uzyskać z danych przy szacowaniu straty. Biorąc pod uwagę niezależne i identycznie rozmieszczone obserwacje, wykonanie tego w możliwych zestawach walidacyjnych prowadzi do asymptotycznie obiektywnego oszacowania. ”n

Należy zauważyć, że błąd LOOCV można również obliczyć analitycznie na podstawie reszt i przekątnej macierzy kapelusza , bez konieczności przeprowadzania jakiejkolwiek weryfikacji krzyżowej. Byłaby to zawsze alternatywa dla AIC jako asymptotyczne przybliżenie błędu LOOCV.

Bibliografia

Stone M. (1977) Asymptotyczna równoważność wyboru modelu poprzez walidację krzyżową i kryterium Akaike. Journal of Royal Statistics Society Series B. 39, 44–7.

Shao J. (1997) asymptotyczna teoria do wyboru modelu liniowego. Statistica Sinica 7, 221–242.

Tom Wenseleers
źródło