Nie można porównywać dwóch modeli, ponieważ nie modelują one tej samej zmiennej (ponieważ poprawnie rozpoznajesz siebie). Niemniej jednak AIC powinien działać, porównując zarówno modele zagnieżdżone, jak i nienestedowane.
Przypomnienie, zanim przejdziemy dalej: prawdopodobieństwo logarytmiczne Gaussa jest podane przez
log( L ( θ ) ) = - | D |2)log( 2 π) - 12)log( | K| )- 12)( x - μ )T.K.- 1( x - μ ) ,
jest struktura kowariancji modelu, | D | liczba punktów w zestawach danych, μ średnia odpowiedź x wartość zmiennej zależnej.K.| D |μx
Mówiąc dokładniej, AIC oblicza się na , gdzie k jest liczbą stałych efektów w twoim modelu, a L twoją funkcją prawdopodobieństwa [1]. Praktycznie porównuje kompromis między wariancją ( 2 k ) a odchyleniem ( 2 log ( L ) ) w założeniach modelowych. Jako taki, w twoim przypadku porównałby dwie różne struktury prawdopodobieństwa logarytmicznego, jeśli chodzi o pojęcie błędu. Dzieje się tak, ponieważ podczas obliczania prawdopodobieństwa logarytmicznego praktycznie patrzysz na dwa terminy: termin dopasowania, oznaczony przez - 12k−2log(L)kL2k2log(L), a termin karania złożoności oznaczony jako-1−12(x−μ)TK−1(x−μ). Dlatego widzisz, że twój termin dopasowania jest całkowicie różny dla obu modeli; w pierwszym przypadku porównujesz resztki z surowych danych, aw drugim przypadku resztki zarejestrowanych danych.−12log(|K|)
Oprócz Wikipedii zdefiniowano również AIC, aby zrównać: [3]; ta forma czyni jeszcze bardziej oczywistym, dlaczego różne modele z różnymi zmiennymi zależnymi nie są porównywalne. RSS jest przypadek dwóch jest po prostu nieporównywalny między nimi.|D|log(RSS|D|)+2k
Oryginalna praca Akaike [4] jest naprawdę trudna do zrozumienia (tak myślę). Opiera się na rozbieżności KL (w przybliżeniu różnicy między dwoma rozkładami) i działa na rzecz udowodnienia, w jaki sposób można przybliżyć przybliżony nieznany prawdziwy rozkład danych i porównać to z rozkładem danych zakładanym przez model. Dlatego „mniejszy wynik AIC jest lepszy” ; jesteś bliżej przybliżonego prawdziwego rozkładu swoich danych.
Aby połączyć to wszystko razem, oczywiste rzeczy, o których należy pamiętać podczas korzystania z AIC, to trzy [2,5]:
Nie można go używać do porównywania modeli różnych zestawów danych.
Powinieneś użyć tych samych zmiennych odpowiedzi dla wszystkich modeli kandydujących.
Powinieneś mieć , bo inaczej nie dostaniesz dobrą asymptotycznej konsystencję.|D|>>k
Przepraszam, że przekazuję ci złe wieści, ale użycie AIC do pokazania, że wybierasz jedną zmienną zależną od drugiej, nie jest statystycznie rozsądną rzeczą. Sprawdź rozkład twoich reszt w obu modelach, jeśli zarejestrowany przypadek danych normalnie rozdzielił resztki, a przypadek nieprzetworzonych danych nie, masz pełne uzasadnienie, którego możesz potrzebować. Możesz także sprawdzić, czy surowe dane odpowiadają logarytmowi, co może być wystarczającym uzasadnieniem.
Dla ścisłych założeń matematycznych gra jest dywergencją KL i teorią informacji ...
Ach i niektóre referencje:
- http://en.wikipedia.org/wiki/Akaike_information_criterion
- Akaike Information Criterion, Shuhua Hu, (Prezentacja s.17–18)
- Applied Multivariate Statistics Analysis, Johnson & Wichern, 6th Ed. (str. 386–387)
- Nowe spojrzenie na identyfikację modelu statystycznego, H. Akaike, IEEE Transactions on Automatic Control 19 (6): 716–723 (1974)
- Samouczek wyboru modelu nr 1: Kryterium informacyjne Akaike, D. Schmidt i E. Makalic, (Prezentacja str. 39)
uu0
uu0
AIC (uu0)+2*sum (log (usili))
AIC (uu1)
źródło
AIC()
Funkcja używasz nie uwzględnia tego.Ten fragment Akaike 1978 zawiera cytat na poparcie rozwiązania autorstwa @probabilityislogic.
Akaike, H. 1978. O prawdopodobieństwie modelu szeregów czasowych. Journal of the Royal Statistics Society. Seria D (The Statistician) 27: 217-235.
źródło