Interpretacja wartości AIC

9

Typowe wartości AIC, które widziałem dla modeli logistycznych, są w tysiącach, a przynajmniej setkach. np. na http://www.r-bloggers.com/how-to-perform-a-logistic-regression-in-r/ AIC to 727,39

Chociaż zawsze mówi się, że AIC należy używać wyłącznie do porównywania modeli, chciałem zrozumieć, co oznacza konkretna wartość AIC. Zgodnie ze wzorem ZAjado=-2)log(L.)+2)K.

Gdzie L = maksymalne prawdopodobieństwo z estymatora MLE, K jest liczbą parametrów

W powyższym przykładzie K = 8

więc z prostą arytmatyką:

727.9 = -2*log(L)+ 2*8
Hence, 711.39 = -2*log(L)
Hence, log (L)= 711.39/-2 = -355.695
Hence, L = exp(-355.695) = 3.3391E-155

Tak więc, jeśli moje rozumowanie jest prawidłowe, jest to prawdopodobieństwo funkcji zidentyfikowanej przez MLE dopasowującej dane. To wydaje się naprawdę bardzo niskie.

Czego tu brakuje?

TAK
źródło
Jeśli spojrzymy na to jak
pmf(zaobserwowane dane;oszacowania parametrów)
Björn,
Niestety, zostałem odcięty, jeśli spojrzymy na to w ten sposób, to sugeruje to, że przy dużej liczbie rekordów uzyskanie dokładnie obserwowanych danych nie było tak prawdopodobne dla oszacowań parametrów.
Björn,

Odpowiedzi:

9

Nie ma czegoś takiego jak „typowe” lub poprawne prawdopodobieństwo dla modelu. To samo dotyczy AIC , to znaczy prawdopodobieństwo ujemnego dziennika jest karane za szereg parametrów. Niższa wartość AIC sugeruje „lepszy” model, ale jest to względna miara dopasowania modelu. Służy do wyboru modelu, tzn. Pozwala porównać różne modele oszacowane na tym samym zbiorze danych.

Przypomnijmy , że GEP Box mówi, że „wszystkie modele są błędne, ale niektóre są użyteczne”, nie jesteś zainteresowany znalezieniem modelu, który idealnie pasuje do twoich danych, ponieważ jest to niemożliwe, a taki model w wielu przypadkach byłby bardzo kiepski, przebudowany . Zamiast tego szukasz najlepszego, jaki możesz uzyskać, najbardziej przydatnego. Ogólną ideą AIC jest to, że model o mniejszej liczbie parametrów jest lepszy, co jest w pewien sposób zgodne z argumentem brzytwy Ockhama , że wolimy model prosty niż skomplikowany.

Możesz sprawdzić następujące dokumenty:

Anderson, D. i Burnham, K. (2006). Mity i nieporozumienia AIC.

Burnham, KP i Anderson, DR (2004). Wnioskowanie wielomodelowe. Zrozumienie AIC i BIC w wyborze modelu. Metody socjologiczne i badania, 33 (2), 261–304.

i te wątki:

Jaka jest różnica między „prawdopodobieństwem” a „prawdopodobieństwem”?

Czy jest jakiś powód, aby preferować AIC lub BIC nad drugim?

Tim
źródło
3

AIC jest ściśle powiązany z uogólnionym („pseudo”) R2). Lubię informować AIC o współczynniku wiarygodnościχ2) skala, chociaż nie jest to tradycyjne, tj. przekształcone AIC = χ2)-2)× df Jeden z ogólnych R2) środki są 1-exp(-χ2)/n). Mimo że nadal nie wiemy dokładnie, jak dużyR2) model musi być uważany za wysoce dyskryminujący, R2) jest przynajmniej jednostkowy.

Frank Harrell
źródło
3

To wydaje się naprawdę bardzo niskie. Czego tu brakuje?

Ilości, takie jak AIC, które wiążą się z wykorzystaniem prawdopodobieństwa logarytmicznego, mają znaczenie jedynie w odniesieniu do innych takich wielkości . Pamiętaj, że funkcja prawdopodobieństwa jest zdefiniowana tylko do stałej skalowania, więc może być dowolnie skalowana w górę lub w dół. W związku z tym prawdopodobieństwo dziennika jest definiowane tylko do stałej lokalizacji i może być dowolnie przesuwane w górę lub w dół. Dotyczy to również AIC, ponieważ ta ilość jest tylko logarytmicznym prawdopodobieństwem, przesuniętym o karę na liczbę parametrów. Dlatego mówi się, że AIC należy wykorzystywać wyłącznie do porównywania modeli.

W procedurach komputerowych funkcja prawdopodobieństwa jest generalnie definiowana bezpośrednio z gęstości próbkowania bez usuwania niepotrzebnych stałych, więc w tym przypadku problem skalowania może nie być czynnikiem. W postie R Blogerzy, do którego linkujesz, byłyn=800punkt danych wykorzystywany w regresji logistycznej. Prawdopodobieństwo dziennika z podanych liczb to:

^=(727,9-2)×8)/(-2))=-355,95.

Zatem średnie prawdopodobieństwo logarytmu na punkt danych wynosi ^/n=-0,4449375, co odpowiada wartości prawdopodobieństwa 0,6408643dla pojedynczego punktu danych. Nie jest to szczególnie niskie i nie powinno być powodem do alarmu.

Ben - Przywróć Monikę
źródło
0

Prawidłowo wskazałeś, że jeśli ponownie obliczysz prawdopodobieństwo, korzystając z AIC zgłoszonego przez R, uzyskasz absurdalnie niskie prawdopodobieństwo. Powodem jest to, że wartość AIC zgłoszona przez R (nazwij to AICrep) nie jest prawdziwą AIC (AICtrue). AICrep i AICtrue różnią się stałą, która zależy od zmierzonych danych, ale która jest niezależna od wybranego modelu. Dlatego obliczone z powrotem prawdopodobieństwo AICrep będzie niepoprawne. To właśnie różnice w PTK, gdy różne modele są używane, aby dopasować te same dane, które są przydatne w wyborze najlepszego modelu.

W. Rose
źródło