Wytyczne AIC w wyborze modelu

32

Zazwyczaj używam BIC, ponieważ rozumiem, że bardziej ceni parsimony niż AIC. Jednak zdecydowałem się teraz zastosować bardziej kompleksowe podejście i chciałbym również użyć AIC. Wiem, że Raftery (1995) przedstawił dobre wytyczne dla różnic BIC: 0-2 jest słaby, 2-4 jest pozytywnym dowodem na lepszy model jednego itd.

Zajrzałem do podręczników i wydają się dziwne w AIC (wygląda na to, że większa różnica jest słaba, a mniejsza różnica w AIC oznacza, że ​​jeden model jest lepszy). Jest to sprzeczne z tym, co wiem, że mnie nauczono. Rozumiem, że chcesz niższy AIC.

Czy ktoś wie, czy wytyczne Raftery obejmują również AIC, lub gdzie mogę przytoczyć pewne wytyczne dotyczące „siły dowodów” dla jednego modelu w porównaniu z innym?

I tak, odcięcia nie są świetne (uważam je za irytujące), ale są pomocne przy porównywaniu różnych dowodów.

Tom Carpenter
źródło
1
Czy to (pdf) , papier Raftery, o którym mówisz?
gung - Przywróć Monikę
4
Czytelnicy tutaj mogą być zainteresowani przeczytaniem następującego doskonałego wątku CV: Czy istnieje powód, aby preferować AIC lub BIC nad drugim?
gung - Przywróć Monikę
1
Do jakich podręczników się odnosisz, kiedy mówisz: „ Zajrzałem do podręczników i wydają się dziwne w AIC (wygląda na to, że większa różnica jest słaba, a mniejsza różnica w AIC oznacza, że ​​jeden model jest lepszy) ” - i co one w rzeczywistości mówić?
Glen_b
1
Twój drugi akapit jest niejasny. Prawdopodobnie masz na myśli to: chociaż duże różnice sugerują, że model o mniejszych wartościach jest lepszy, mniejsze różnice są trudne do oszacowania. Ponadto statystycy nie są jeszcze zgodni co do tego, jakie różnice są „małe” lub „duże” - Singer i Willet (2003, s. 122)
Hibernacja
1
Jeśli chodzi o twój trzeci akapit, jeśli chcesz przyjąć kategorie siły dowodowej przedstawione przez Jeffreysa (1961, s. 432), mogę dać ci pełne odniesienie.
Hibernacja

Odpowiedzi:

23

AIC i BIC posiadają tę samą interpretację pod względem porównania modeli. Oznacza to, że większa różnica w AIC lub BIC wskazuje na mocniejsze dowody dla jednego modelu nad drugim (im niższa, tym lepsza). Po prostu AIC nie penalizuje liczby parametrów tak mocno, jak BIC. Istnieje również poprawka do AIC (AICc), która jest stosowana dla mniejszych próbek. Więcej informacji na temat porównania AIC / BIC można znaleźć tutaj .

dmartin
źródło
5
+1. Wystarczy dodać / wyjaśnić: AIC (i AICc) stosuje dywergencję KL. Dlatego właśnie dlatego, że AIC odzwierciedla „dodatkowe” informacje, im mniejszy, tym lepiej. Innymi słowy, ponieważ nasz rozmiar próby , model z minimalnym wynikiem AIC będzie posiadał najmniejszą dywergencję Kullbacka-Leiblera, a zatem będzie modelem najbliższym „prawdziwemu” modelowi. N
usεr11852 mówi Przywróć Monic
28

Mówisz o dwóch różnych rzeczach i mieszasz je. W pierwszym przypadku masz dwa modele (1 i 2) i uzyskałeś ich AIC, takie jak i A I C 2 . JEŻELI chcesz porównać te dwa modele w oparciu o ich AIC, wówczas preferowany będzie model z niższym AIC, tj. Jeśli A I C 1 < A I C 2, to wybierz model 1 i odwrotnie. W 2. przypadku, masz zestaw modeli kandydujących jak modele ( 1 , 2 , . . . , N )AIC1AIC2AIC1<AIC2
(1,2,...,n)i dla każdego modelu obliczasz różnice AIC jako , gdzie A I C i jest AIC dla i- tego modelu, a A I C m i n jest minimum AIC między wszystkie modele. Teraz model z hemibursztynianu i > 10 mają żadnego wsparcia i może być, pominięte z dalszego rozpatrywania, jak wyjaśniono w wyborze modelu i multi-model Inference: A Practical Approach Informacja-teoretycznaΔi=AICiAICminAICiiAICminΔi>10autor: Kenneth P. Burnham, David R. Anderson, strona 71. Im większe jest , tym słabszy byłby twój model. Tutaj najlepszy model ma Δ iΔ m i n0.ΔiΔiΔmin0.

Stat
źródło
1
Aha! To całkowicie wyczyściło bit „większy niż”. Dzięki!
Tom Carpenter
7

Zasadniczo nigdy nie używam AIC ani BIC obiektywnie do opisania odpowiedniego dopasowania do modelu. I nie używać tych układów scalonych porównać względne dopasowanie dwóch modeli predykcyjnych. Jeśli chodzi o to, czy chodzi o AIC „2” czy „4”, jest ono całkowicie kontekstowe. Jeśli chcesz się dowiedzieć, jak pasuje „dobry” model, zawsze możesz (należy) użyć symulacji. Twoje rozumienie AIC jest prawidłowe. AIC otrzymuje dodatni wkład z parametrów i ujemny wkład z prawdopodobieństwa. To, co próbujesz zrobić, to zmaksymalizować prawdopodobieństwo bez ładowania modelu za pomocą szeregu parametrów. Tak więc, moim zdaniem pęknięcie bańki jest takie, że odcięcia dla AIC nie są dobre z kontekstu.

AdamO
źródło
Co jeśli twoje modele nie pozwalają na żadną symulację?
Stat
6
Tut-tut! Jak to jest w ogóle możliwe? Można uruchomić świat.
AdamO
Boże, powodzenia z tym ... symulować świat lol
Stat
2
@Stat Mówię bardzo poważnie, gdy mówię, że nie wyobrażam sobie sytuacji, w której nie byłoby możliwe symulowanie danych z modelu. Przynajmniej ładowanie z zestawu danych szkoleniowych kwalifikuje się jako prawidłowe podejście symulacyjne.
AdamO,
Kiedy bootstrapowanie jest trudne, sprawdzanie poprawności, a nawet zwykłe jackknifowanie powinno działać. Uśrednianie modeli zapewnia również sposób uzgadniania informacji z modeli o podobnych AIC.
N Brouwer
2

Oto pokrewne pytanie, kiedy-czy-należy-wybrać-modele-minimalizując-a-aic?. Daje ogólne wyobrażenie o tym, co ludzie nie do poznania w świecie akademickim uważają za właściwe do pisania i jakie odniesienia pozostawić jako ważne.

Zasadniczo liczą się różnice między prawdopodobieństwami lub AIC, a nie ich wartości bezwzględne. Brakuje ważnego słowa „różnica” w swoim „BIC: 0-2 jest słaby” w pytaniu - sprawdź TABELĘ 6 Raftery - i dziwne, że nikt nie chce tego poprawić.

Ja sam nauczyłem się szukać MAICE (Minimalna ocena AIC - jak to nazywał Akaike). Więc co? Oto, co jedna słynna osoba napisała do nieznanej damy:

Dear Miss -- 
I have read about sixteen pages of your manuscript ... I suffered exactly the same 
treatment at the hands of my teachers who disliked me for my independence and passed 
over me when they wanted assistants ... keep your manuscript for your sons and
daughters, in order that they may derive consolation from it and not give a damn for
what their teachers tell them or think of them. ... There is too much education
altogether.

Moi nauczyciele nigdy nie słyszeli o artykułach zatytułowanych „Test, czy dwa AIC różnią się znacznie” i nawet nie pamiętam, żeby kiedykolwiek nazywali AIC statystyką, która miałaby rozkład próbkowania i inne właściwości. Nauczono mnie, że AIC jest kryterium, które należy zminimalizować, jeśli to możliwe w jakiś automatyczny sposób.

Jeszcze inną ważną kwestią, którą, jak sądzę, zostało tu wyrażone kilka lat temu przez IrishStat (z pamięci, więc przepraszam, jeśli się mylę, ponieważ nie znalazłem tej odpowiedzi) jest to, że AIC, BIC i inne kryteria zostały wyprowadzone dla różnych celów i w różnych warunkach (założeniach), więc często nie można ich używać zamiennie, jeśli powiedzmy, że twoim celem jest prognozowanie. Nie możesz po prostu preferować czegoś nieodpowiedniego.

Moje źródła pokazują, że użyłem cytatu dla Burnhama i Andersona (2002, s. 70), aby napisać, że delta (różnice AIC) w zakresie 0-2 ma znaczące poparcie; delta w granicach 4-7 znacznie mniej wsparcia i delta większa niż 10 zasadniczo nie ma wsparcia. Napisałem również, że „autorzy omówili również warunki, w których wytyczne te mogą być przydatne”. Książka jest cytowana w odpowiedzi Stat, którą uznałem za najbardziej odpowiednią.

Hibernacja
źródło
0

Jeśli chodzi o kryteria informacyjne, oto, co mówi SAS :

„Należy pamiętać, że kryteria informacyjne, takie jak Akaike (AIC), Schwarz (SC, BIC) i QIC, mogą być stosowane do porównywania konkurencyjnych modeli bez emisji spalin, ale nie zapewniają testu porównania. W związku z tym nie mogą wskazać, czy jeden model jest znacząco lepsze niż inne. GENMOD, LOGISTIC, GLIMMIX, MIXED i inne procedury zapewniają miary kryteriów informacyjnych. ”

Istnieją dwie procedury testowania modelu porównawczego: a) test Vuong ib) nieparametryczny test Clarke'a. Zobacz ten artykuł, aby uzyskać szczegółowe informacje.

Metryka
źródło
Uważam, że notacja matematyczna zastosowana w cytowanym „artykule” (tj. Prezentacji) jest niezrozumiała bez komentarzy. W szczególności, co symbolizuje linia myślników? Implikacja?
Adam Ryczkowski