Wymagania wstępne dla porównania modeli AIC

26

Jakie dokładnie warunki należy spełnić, aby porównanie modeli AIC zadziałało?

Właśnie natrafiłem na to pytanie, kiedy porównałem to:

> uu0 = lm(log(usili) ~ rok)
> uu1 = lm(usili ~ rok)
> AIC(uu0)
[1] 3192.14
> AIC(uu1)
[1] 14277.29

W ten sposób uzasadniłem logtransformację zmiennej usili. Ale nie wiem, czy mogę porównywać modele AIC, gdy na przykład zmienna zależna jest inna?

Idealna odpowiedź obejmowałaby listę warunków wstępnych (założenia matematyczne).

Ciekawy
źródło

Odpowiedzi:

29

Nie można porównywać dwóch modeli, ponieważ nie modelują one tej samej zmiennej (ponieważ poprawnie rozpoznajesz siebie). Niemniej jednak AIC powinien działać, porównując zarówno modele zagnieżdżone, jak i nienestedowane.

Przypomnienie, zanim przejdziemy dalej: prawdopodobieństwo logarytmiczne Gaussa jest podane przez

log(L.(θ))=-|re|2)log(2)π)-12)log(|K.|)-12)(x-μ)T.K.-1(x-μ),

jest struktura kowariancji modelu, | D | liczba punktów w zestawach danych, μ średnia odpowiedź x wartość zmiennej zależnej.K.|re|μx

Mówiąc dokładniej, AIC oblicza się na , gdzie k jest liczbą stałych efektów w twoim modelu, a L twoją funkcją prawdopodobieństwa [1]. Praktycznie porównuje kompromis między wariancją ( 2 k ) a odchyleniem ( 2 log ( L ) ) w założeniach modelowych. Jako taki, w twoim przypadku porównałby dwie różne struktury prawdopodobieństwa logarytmicznego, jeśli chodzi o pojęcie błędu. Dzieje się tak, ponieważ podczas obliczania prawdopodobieństwa logarytmicznego praktycznie patrzysz na dwa terminy: termin dopasowania, oznaczony przez - 12k2log(L)kL2k2log(L), a termin karania złożoności oznaczony jako-112(xμ)TK1(xμ). Dlatego widzisz, że twój termin dopasowania jest całkowicie różny dla obu modeli; w pierwszym przypadku porównujesz resztki z surowych danych, aw drugim przypadku resztki zarejestrowanych danych.12log(|K|)

Oprócz Wikipedii zdefiniowano również AIC, aby zrównać: [3]; ta forma czyni jeszcze bardziej oczywistym, dlaczego różne modele z różnymi zmiennymi zależnymi nie są porównywalne. RSS jest przypadek dwóch jest po prostu nieporównywalny między nimi.|D|log(RSS|D|)+2k

Oryginalna praca Akaike [4] jest naprawdę trudna do zrozumienia (tak myślę). Opiera się na rozbieżności KL (w przybliżeniu różnicy między dwoma rozkładami) i działa na rzecz udowodnienia, w jaki sposób można przybliżyć przybliżony nieznany prawdziwy rozkład danych i porównać to z rozkładem danych zakładanym przez model. Dlatego „mniejszy wynik AIC jest lepszy” ; jesteś bliżej przybliżonego prawdziwego rozkładu swoich danych.

Aby połączyć to wszystko razem, oczywiste rzeczy, o których należy pamiętać podczas korzystania z AIC, to trzy [2,5]:

  1. Nie można go używać do porównywania modeli różnych zestawów danych.

  2. Powinieneś użyć tych samych zmiennych odpowiedzi dla wszystkich modeli kandydujących.

  3. Powinieneś mieć , bo inaczej nie dostaniesz dobrą asymptotycznej konsystencję.|D|>>k

Przepraszam, że przekazuję ci złe wieści, ale użycie AIC do pokazania, że ​​wybierasz jedną zmienną zależną od drugiej, nie jest statystycznie rozsądną rzeczą. Sprawdź rozkład twoich reszt w obu modelach, jeśli zarejestrowany przypadek danych normalnie rozdzielił resztki, a przypadek nieprzetworzonych danych nie, masz pełne uzasadnienie, którego możesz potrzebować. Możesz także sprawdzić, czy surowe dane odpowiadają logarytmowi, co może być wystarczającym uzasadnieniem.

Dla ścisłych założeń matematycznych gra jest dywergencją KL i teorią informacji ...

Ach i niektóre referencje:

  1. http://en.wikipedia.org/wiki/Akaike_information_criterion
  2. Akaike Information Criterion, Shuhua Hu, (Prezentacja s.17–18)
  3. Applied Multivariate Statistics Analysis, Johnson & Wichern, 6th Ed. (str. 386–387)
  4. Nowe spojrzenie na identyfikację modelu statystycznego, H. Akaike, IEEE Transactions on Automatic Control 19 (6): 716–723 (1974)
  5. Samouczek wyboru modelu nr 1: Kryterium informacyjne Akaike, D. Schmidt i E. Makalic, (Prezentacja str. 39)
usεr11852 mówi Reinstate Monic
źródło
dzięki! Nie zrozumiałem matematyki, ale dostałem sedno przesłania. Czy możesz jednak wymienić wszystkie warunki wstępne potrzebne do porównania modeli AIC? Tylko dla pewności, że następnym razem nie popełnię kolejnego błędu. Pójdę i sprawdzę je jeden po drugim.
Ciekawy
1
|D|pL(θ)θp(x|θ)
usεr11852 mówi Przywróć Monic
1
dziękuję za dodanie do odpowiedzi listy tych 3 założeń! Właśnie tego potrzebowałem.
Ciekawy
1
Patrząc ponownie na twoją odpowiedź: twój punkt 1. „Nie możesz jej użyć do porównania modeli różnych zestawów danych” . Co rozumiesz przez „zestaw danych”? Co jeśli zmienię zestaw zmiennych zależnych? Myślę, że w takim przypadku AIC powinno być nadal porównywalne? Czy możesz zaktualizować swoją odpowiedź, aby to wyjaśnić?
Ciekawy
1
RS.S.μx
11

uu0iyi12ilog(yi)uu0AIC (uu0)+2*sum (log (usili))AIC (uu1)

prawdopodobieństwo prawdopodobieństwa
źródło
Nie rozumiem, co podążasz, próbując jakoś „skorygować” AIC i co tak naprawdę uzyskałeś (jak interpretować swój wynik). W każdym razie, nie zagłębiaj się w to, to nie ma znaczenia, ponieważ moje pytanie dotyczyło czegoś zupełnie innego: jakie są ogólne warunki, aby AIC (rzeczywisty, nieskorygowany) był rozsądnie porównywalny. Nie skupiaj się na tym konkretnym przykładzie, to tylko przykład ogólnej rzeczy.
Ciekawy
1
2log(p(y|θ))x=g(y)x=log(y)AIC()Funkcja używasz nie uwzględnia tego.
probabilityislogic
@probabilityislogic: Czy masz jakieś odniesienia akademickie do swojej sugestii (AIC (uu0) + 2 * suma (log (usili))), abym mógł zacytować je w pismach akademickich? Dzięki.
KuJ
3

Taken from Akaike 1978

Ten fragment Akaike 1978 zawiera cytat na poparcie rozwiązania autorstwa @probabilityislogic.

Akaike, H. 1978. O prawdopodobieństwie modelu szeregów czasowych. Journal of the Royal Statistics Society. Seria D (The Statistician) 27: 217-235.

bjd
źródło
1
przepraszam, nie rozumiem, co to jest „transformacja zmiennej” i jak to się ma do mojego pytania. Wyjaśnij, dziękuję
Ciekawy