AIC i BIC są metodami oceny dopasowania modelu karanymi za liczbę oszacowanych parametrów. Jak rozumiem, BIC karze modele bardziej za wolne parametry niż AIC. Czy poza preferencjami opartymi na rygorystycznych kryteriach istnieją jeszcze inne powody, by preferować AIC zamiast BIC lub odwrotnie?
modeling
aic
cross-validation
bic
model-selection
russellpierce
źródło
źródło
Odpowiedzi:
Twoje pytanie sugeruje, że AIC i BIC próbują odpowiedzieć na to samo pytanie, co nie jest prawdą. AIC próbuje wybrać model, który najlepiej opisuje nieznaną rzeczywistość wielowymiarową. Oznacza to, że rzeczywistość nigdy nie znajduje się w zbiorze rozważanych modeli kandydujących. Przeciwnie, BIC próbuje znaleźć PRAWDZIWY model wśród zbioru kandydatów. Wydaje mi się dość dziwne założenie, że rzeczywistość powstaje w jednym z modeli zbudowanych po drodze przez naukowców. To jest prawdziwy problem dla BIC.
Niemniej jednak jest wielu badaczy, którzy twierdzą, że BIC jest lepszy niż AIC, wykorzystując jako argument symulacje odzyskiwania modelu. Symulacje te obejmują generowanie danych z modeli A i B, a następnie dopasowanie obu zestawów danych do dwóch modeli. Przeregulowanie występuje, gdy niewłaściwy model lepiej pasuje do danych niż do generowania. Celem tych symulacji jest sprawdzenie, jak dobrze AIC i BIC poprawiają te naddatki. Zazwyczaj wyniki wskazują na to, że AIC jest zbyt liberalny i nadal często woli bardziej złożony, niewłaściwy model niż prostszy, prawdziwy model. Na pierwszy rzut oka te symulacje wydają się być naprawdę dobrymi argumentami, ale problem z nimi polega na tym, że nie mają one znaczenia dla AIC. Jak powiedziałem wcześniej, AIC nie uważa, że którykolwiek z testowanych modeli kandydujących jest w rzeczywistości prawdziwy. Według AIC wszystkie modele są przybliżeniami do rzeczywistości, a rzeczywistość nigdy nie powinna mieć niskiej wymiarowości. Co najmniej niższy niż niektóre modele kandydujące.
Polecam używać zarówno AIC, jak i BIC. W większości przypadków będą się zgadzać na preferowany model, a jeśli nie, po prostu to zgłoś.
Jeśli jesteś niezadowolony zarówno z AIC, jak i BIC i masz wolny czas na inwestowanie, sprawdź Minimalna długość opisu (MDL), zupełnie inne podejście, które pokonuje ograniczenia AIC i BIC. Istnieje kilka miar wynikających z MDL, takich jak znormalizowane maksymalne prawdopodobieństwo lub przybliżenie informacji Fishera. Problem z MDL polega na tym, że jest on wymagający matematycznie i / lub intensywny obliczeniowo.
Jeśli jednak chcesz trzymać się prostych rozwiązań, dobrym sposobem oceny elastyczności modelu (zwłaszcza gdy liczba parametrów jest równa, czyniąc AIC i BIC bezużytecznymi) jest wykonywanie parametrycznego ładowania początkowego, który jest dość łatwy do wdrożenia. Oto link do artykułu na ten temat.
Niektóre osoby opowiadają się za stosowaniem weryfikacji krzyżowej. Ja osobiście z niego korzystałem i nie mam nic przeciwko temu, ale problem polega na tym, że wybór wśród zasady wycinania próbek (pomijanie, składanie w K, itp.) Jest zasadą bezproblemową.
źródło
Chociaż zarówno AIC, jak i BIC są oparte na oszacowaniu maksymalnego prawdopodobieństwa i karają wolne parametry w celu walki z nadmiernym dopasowaniem, robią to w sposób, który skutkuje istotnie odmiennym zachowaniem. Spójrzmy na jedną powszechnie prezentowaną wersję metod (której wyniki zakładają normalnie rozłożone błędy i inne dobrze zachowujące się założenia):
i
gdzie:
Najlepszym modelem w porównywanej grupie jest ten, który minimalizuje te wyniki, w obu przypadkach. Oczywiście AIC nie zależy bezpośrednio od wielkości próbki. Co więcej, ogólnie rzecz biorąc, AIC stwarza niebezpieczeństwo, że może się on przeregulować, podczas gdy BIC stanowi niebezpieczeństwo, że może się on nie nadawać, po prostu z powodu tego, w jaki sposób penalizują wolne parametry (2 * k w AIC; ln (N) * k w BIC). Diachronicznie, w miarę wprowadzania danych i ponownego obliczania wyników, przy stosunkowo niskim N (7 i mniejszym) BIC jest bardziej tolerancyjny dla wolnych parametrów niż AIC, ale mniej tolerancyjny przy wyższym N (jako logarytm naturalny N pokonuje 2).
Ponadto AIC ma na celu znalezienie najlepszego modelu aproksymacji do nieznanego procesu generowania danych (poprzez zminimalizowanie oczekiwanej rozbieżności KL ). Jako taki nie jest zbieżny z prawdopodobieństwem do prawdziwego modelu (zakładając, że jeden jest obecny w grupie ocenianej), podczas gdy BIC zbiega się, gdy N dąży do nieskończoności.
Tak więc, jak w wielu pytaniach metodologicznych, które należy preferować, zależy od tego, co próbujesz zrobić, jakie inne metody są dostępne i od tego, czy którakolwiek z opisanych cech (konwergencja, względna tolerancja dla wolnych parametrów, minimalizująca oczekiwaną rozbieżność KL ), mów do swoich celów.
źródło
Moje szybkie wyjaśnienie brzmi
źródło
Z mojego doświadczenia wynika, że BIC powoduje poważne niedostateczne dopasowanie, a AIC zwykle osiąga dobre wyniki, gdy celem jest maksymalizacja dyskryminacji predykcyjnej.
źródło
Informacyjną i dostępną „pochodną” AIC i BIC autorstwa Briana Ripleya można znaleźć tutaj: http://www.stats.ox.ac.uk/~ripley/Nelder80.pdf
Ripley przedstawia kilka uwag na temat założeń leżących u podstaw wyników matematycznych. W przeciwieństwie do tego, co wskazują niektóre inne odpowiedzi, Ripley podkreśla, że AIC opiera się na założeniu, że model jest prawdziwy. Jeśli model nie jest prawdziwy, ogólne obliczenia ujawnią, że „liczbę parametrów” należy zastąpić bardziej skomplikowaną wielkością. Niektóre odniesienia podano w slajdach Ripleys. Należy jednak zauważyć, że w przypadku regresji liniowej (ściśle mówiąc ze znaną wariancją), na ogół, bardziej skomplikowana ilość upraszcza być równa liczbie parametrów.
źródło
Rzeczywiście jedyną różnicą jest to, że BIC jest rozszerzony AIC, aby uwzględnić liczbę obiektów (próbek). Powiedziałbym, że chociaż oba są dość słabe (w porównaniu do na przykład walidacji krzyżowej), lepiej jest używać AIC, niż więcej osób będzie znało skrót - w rzeczywistości nigdy nie widziałem artykułu ani programu, w którym BIC by być użytym (wciąż przyznaję, że jestem stronniczy na problemy, w których takie kryteria po prostu nie działają).
Edycja: AIC i BIC są równoważne walidacji krzyżowej, pod warunkiem dwóch ważnych założeń - kiedy są zdefiniowane, więc kiedy model ma największe prawdopodobieństwo i gdy jesteś zainteresowany jedynie wydajnością modelu na danych treningowych. W przypadku zrzucenia niektórych danych do pewnego rodzaju konsensusu są one całkowicie w porządku.
W przypadku tworzenia maszyny predykcyjnej dla jakiegoś rzeczywistego problemu, pierwszy jest fałszywy, ponieważ twój zestaw treningowy stanowi jedynie skrawek informacji o problemie, z którym masz do czynienia, więc po prostu nie możesz zoptymalizować swojego modelu; druga jest fałszywa, ponieważ oczekujesz, że Twój model będzie obsługiwał nowe dane, dla których nie można nawet oczekiwać, że zestaw treningowy będzie reprezentatywny. I w tym celu wymyślono CV; symulować zachowanie modelu w konfrontacji z niezależnymi danymi. W przypadku wyboru modelu CV daje nie tylko przybliżoną jakość, ale także rozkład przybliżenia jakości, więc ma tę wielką zaletę, że może powiedzieć: „Nie wiem, bez względu na nowe dane, każde z nich może być lepszy."
źródło
Jak wspomniałeś, AIC i BIC są metodami karania modeli za posiadanie większej liczby zmiennych regresora. W tych metodach stosowana jest funkcja kary, która jest funkcją liczby parametrów w modelu.
Przy stosowaniu AIC funkcją kary jest z (p) = 2 p .
Podczas stosowania BIC funkcją kary jest z (p) = p ln ( n ), która polega na interpretacji kary jako wynikającej z wcześniejszych informacji (stąd nazwa Bayesowskie Kryterium Informacji).
Gdy n jest duże, oba modele będą dawać zupełnie inne wyniki. Następnie BIC nakłada znacznie większą karę na złożone modele, a zatem prowadzi do prostszych modeli niż AIC. Jednak, jak stwierdzono w Wikipedii na temat BIC :
źródło
Z tego, co mogę powiedzieć, nie ma dużej różnicy między AIC i BIC. Oba są matematycznie wygodnymi przybliżeniami, które można wykonać w celu skutecznego porównania modeli. Jeśli dają różne „najlepsze” modele, prawdopodobnie oznacza to, że masz dużą niepewność modelu, co jest ważniejsze niż martwienie się o to, czy powinieneś użyć AIC czy BIC. Osobiście bardziej podoba mi się BIC, ponieważ pyta o więcej (mniej) modelu, czy ma więcej (mniej) danych, aby dopasować się do jego parametrów - jak nauczyciel, który prosi o wyższy (niższy) standard wydajności, jeśli jego uczeń ma więcej (mniej) ) czas na poznanie tematu. Dla mnie to wydaje się intuicyjne. Ale jestem pewien, że istnieją również równie intuicyjne i przekonujące argumenty dla AIC, biorąc pod uwagę jego prostą formę.
Teraz za każdym razem, gdy dokonasz przybliżenia, na pewno będą pewne warunki, gdy przybliżenia te będą śmieciami. Można to z pewnością zauważyć w przypadku AIC, gdzie istnieje wiele „korekt” (AICc) w celu uwzględnienia pewnych warunków, które powodują, że pierwotne przybliżenie jest złe. Jest to również obecne w przypadku BIC, ponieważ istnieją różne inne dokładniejsze (ale wciąż wydajne) metody, takie jak aproksymacje w pełni Laplace'a do mieszanin g-priorów Zellnera (BIC jest przybliżeniem metody aproksymacji Laplace'a dla całek).
Jednym z miejsc, w którym oba są badziewne, jest posiadanie znacznych wcześniejszych informacji o parametrach w danym modelu. AIC i BIC niepotrzebnie karają modele, w których parametry są częściowo znane w porównaniu z modelami, które wymagają oszacowania parametrów na podstawie danych.
jedną rzeczą, którą moim zdaniem należy zauważyć, jest to, że BIC nie zakłada, że „prawdziwy” model a) istnieje lub b) jest zawarty w zestawie modeli. BIC jest po prostu przybliżeniem zintegrowanego prawdopodobieństwa (D = Dane, M = model, A = założenia). Tylko mnożąc przez wcześniejsze prawdopodobieństwo, a następnie normalizując, można uzyskać . BIC po prostu reprezentuje prawdopodobieństwo danych, jeśli twierdzenie sugerowane przez symbol jest prawdziwe. Z logicznego punktu widzenia wszystkie propozycje, które doprowadziłyby do BIC jako przybliżenia, są jednakowo obsługiwane przez dane. Więc jeśli podam i jako zdaniaP(D|M,A) P(M|D,A) M M A
A następnie nadal przypisuj te same modele prawdopodobieństwa (te same parametry, te same dane, te same przybliżenia itp.), Otrzymam ten sam zestaw wartości BIC. Dopiero poprzez nadanie jakiegoś unikalnego znaczenia logicznej literze „M” wciągają się nieistotne pytania dotyczące „prawdziwego modelu” (echa „prawdziwej religii”). Jedyną rzeczą, która „definiuje” M, są równania matematyczne, które wykorzystują go w swoich obliczeniach - i to rzadko kiedy wyodrębnia jedną i tylko jedną definicję. Mógłbym równie dobrze przedstawić propozycję przewidywania dotyczącą M („i-ty model da najlepsze prognozy”). Osobiście nie widzę, jak to zmieni jakiekolwiek prawdopodobieństwo, a zatem, jak dobry lub zły będzie BIC (AIC również w tym przypadku - chociaż AIC opiera się na innej pochodnej)
A poza tym, co jest nie tak ze stwierdzeniem Jeśli prawda model jest w zestawie Zastanawiam, to istnieje prawdopodobieństwo 57%, że jest modelem B . Wydaje mi się to wystarczająco rozsądne, lub możesz wybrać bardziej „miękką” wersję, istnieje 57% prawdopodobieństwo, że model B jest najlepszy z rozważanego zestawu
Ostatni komentarz: Myślę, że znajdziesz tyle opinii na temat AIC / BIC, jak wielu ludzi o nich wie.
źródło
AIC należy rzadko stosować, ponieważ tak naprawdę jest on ważny tylko asymptotycznie. Jest prawie zawsze lepiej użyć AICC (AIC z c orrection o skończonej wielkości próby). AIC ma tendencję do nadmiernej parametryzacji: ten problem jest znacznie zmniejszony dzięki AICc. Głównym wyjątkiem od korzystania z AICc jest to, że podstawowe dystrybucje są silnie leptokurtyczne. Więcej informacji na ten temat można znaleźć w książce Wybór modelu autorstwa Burnham i Anderson.
źródło
AIC i BIC to kryteria informacyjne do porównywania modeli. Każda z nich próbuje zrównoważyć dopasowanie modelu i oszczędność, a każda z nich ma różny wpływ na liczbę parametrów.
AIC to Akaike Information Criterion formuła jest gdzie jest liczbą parametrów, a oznacza maksymalne prawdopodobieństwo; dzięki tej formule mniejsze jest lepsze. (Pamiętam, że niektóre programy generują przeciwne , ale nie pamiętam szczegółów)
BIC to Bayesian Information Criterion, formuła to i faworyzuje bardziej oszczędne modele niż AIC
Nie słyszałem o KIC.
źródło
Bardzo krótko:
Zauważ, że w kontekście GLM penalizowanych przez L0 (gdzie penalizujesz prawdopodobieństwo logarytmiczne twojego modelu na podstawie lambda * liczby niezerowych współczynników, tj. Normy L0 twoich współczynników modelu), możesz bezpośrednio zoptymalizować cel AIC lub BIC , jako dla AIC i dla BIC, co dzieje się w pakiecie L0ara R. Dla mnie ma to większy sens niż to, co np. Robią w przypadku LASSO lub regresji elastycznej sieci w glmnet , gdzie po optymalizacji jednego celu (LASSO lub regresji elastycznej sieci) następuje dostrojenie parametru (ów) regularyzacji w oparciu o inne cel (który np. minimalizuje błąd prognozy weryfikacji krzyżowej, AIC lub BIC).lambda=2 lambda=log(n)
Syed (2011) na stronie 10 zauważa „Możemy również spróbować uzyskać intuicyjne zrozumienie asymptotycznej równoważności, zauważając, że AIC minimalizuje rozbieżność Kullbacka-Leiblera między modelem przybliżonym a modelem prawdziwym. Rozbieżność Kullbacka-Leiblera nie jest miara odległości między rozkładami, ale tak naprawdę miara utraty informacji, gdy model przybliżony jest używany do modelowania rzeczywistości naziemnej. Weryfikacja krzyżowa typu „jeden do jednego” wykorzystuje maksymalną ilość danych do treningu, aby przewidzieć jedną obserwację. ,n−1 obserwacje jako standarty dla modelu przybliżonego w stosunku do pojedynczej obserwacji reprezentującej „rzeczywistość”. Możemy myśleć o tym jako o uczeniu się maksymalnej ilości informacji, jakie można uzyskać z danych przy szacowaniu straty. Biorąc pod uwagę niezależne i identycznie rozmieszczone obserwacje, wykonanie tego w możliwych zestawach walidacyjnych prowadzi do asymptotycznie obiektywnego oszacowania. ”n
Należy zauważyć, że błąd LOOCV można również obliczyć analitycznie na podstawie reszt i przekątnej macierzy kapelusza , bez konieczności przeprowadzania jakiejkolwiek weryfikacji krzyżowej. Byłaby to zawsze alternatywa dla AIC jako asymptotyczne przybliżenie błędu LOOCV.
Bibliografia
Stone M. (1977) Asymptotyczna równoważność wyboru modelu poprzez walidację krzyżową i kryterium Akaike. Journal of Royal Statistics Society Series B. 39, 44–7.
Shao J. (1997) asymptotyczna teoria do wyboru modelu liniowego. Statistica Sinica 7, 221–242.
źródło