Dlaczego zastosowanie wyboru modelu za pomocą AIC daje mi nieistotne wartości p dla zmiennych

14

Mam pytania dotyczące AIC i mam nadzieję, że możesz mi pomóc. Zastosowałem wybór modelu (do tyłu lub do przodu) na podstawie AIC na moich danych. Niektóre wybrane zmienne zakończyły się wartościami p> 0,05. Wiem, że ludzie mówią, że powinniśmy wybierać modele oparte na AIC zamiast wartości p, więc wydaje się, że AIC i wartość p to dwie koncepcje różnicowe. Czy ktoś mógłby mi powiedzieć na czym polega różnica? Do tej pory rozumiem, że:

  1. W przypadku wstecznego wyboru za pomocą AIC załóżmy, że mamy 3 zmienne (var1, var2, var3), a AIC tego modelu to AIC *. Jeśli wykluczenie którejkolwiek z tych trzech zmiennych nie skończyłoby się AIC, który jest znacznie niższy niż AIC * (pod względem rozkładu ch-kwadrat przy df = 1), to powiedzielibyśmy, że te trzy zmienne są wynikami końcowymi.

  2. Znacząca wartość p dla zmiennej (np. Var1) w modelu z trzema zmiennymi oznacza, że ​​znormalizowany rozmiar efektu tej zmiennej różni się znacznie od 0 (według Walda lub testu t).

Jaka jest podstawowa różnica między tymi dwiema metodami? Jak mam to zinterpretować, jeśli w moim najlepszym modelu (uzyskanym przez AIC) istnieją zmienne o nieistotnych wartościach p?

Tiantianchen
źródło

Odpowiedzi:

13

AIC i jego odmiany są bliżej wariantów w , a następnie na wartości p każdego regressor. Dokładniej, są to karane wersje prawdopodobieństwa dziennika.R2

Nie chcesz testować różnic AIC za pomocą chi-kwadrat. Można przetestować różnice w logarytmie prawdopodobieństwa za pomocą chi-kwadrat (jeśli modele są zagnieżdżone). W przypadku AIC niższe jest lepsze (w większości jego implementacji, tak czy inaczej). Nie jest wymagana dalsza regulacja.

Naprawdę chcesz uniknąć metod automatycznego wyboru modelu, jeśli to możliwe. Jeśli musisz go użyć, wypróbuj LASSO lub LAR.

Peter Flom - Przywróć Monikę
źródło
2
Dziękuję za Twoją odpowiedź. Tak masz rację. AIC nie stosuje żadnego testu, zamiast tego daje prosty pomiar tego, jak dobrze model pasuje do próbki i czy model może być również prosty, dodając prawdopodobieństwo logiczne -2 * z 2 * liczbą_parametrów. Może to wyjaśnia, dlaczego zmienne o nieistotnych wartościach p zostały zachowane w wybranym modelu?
tiantianchen
Który model powinniśmy wybrać, jeśli mamy dwa modele z prawie identycznym AIC, ale w jednym mamy bardziej znaczące terminy niż w drugim?
Agus Camacho,
Cokolwiek chcesz.
Peter Flom - Przywróć Monikę
11

χ12) po upływie 2, ..., która wynosi 15,7%)

Nic więc dziwnego, jeśli porównasz to z użyciem mniejszej wartości granicznej dla wartości p, która czasami zawiera zmienne o wyższych wartościach p niż ta wartość graniczna.

Glen_b - Przywróć Monikę
źródło
czy możesz wskazać mi adres URL lub odniesienie do połączenia między AIC i wartościami p przez Wal chi-kwadrat? Dzięki.
Meh
Można to stosunkowo łatwo wykazać, stosując wartość 2 jako wartość krytyczną, co odpowiada progowi wartości p wynoszącemu 15,73% (gdy stopnie swobody testu wynoszą 1, jak ma to miejsce w przypadku stopniowego wyboru z wykorzystaniem regresji liniowej modele i zmienne ciągłe). Można to obliczyć jako 1-chi2cdf (2,1).
George
@aginensky Nie widziałem żadnego odnośnika, chociaż połączenie jest proste. Wyobrażam sobie, że mogę google w górę, poczekaj.
Glen_b
@aginensky Lindsey, JK & Jones, B. (1998) Wybór spośród uogólnionych modeli liniowych zastosowanych do danych medycznych. Statystyka w medycynie , 17, 59–68. ... patrz środek strony 62. Byłoby ich więcej.
Glen_b
@ Glen_b- dzięki, nigdy wcześniej nie widziałem czegoś takiego.
meh
9

Należy zauważyć, że ani wartości p, ani AIC nie zostały zaprojektowane do stopniowego wyboru modelu, w rzeczywistości założenia leżące u podstaw obu (ale różnych założeń) są naruszane po pierwszym etapie regresji krokowej. Jak wspomniano @PeterFlom, LASSO i / lub LAR są lepszymi alternatywami, jeśli czujesz potrzebę automatycznego wyboru modelu. Te metody przyciągają szacunki, które są duże przypadkowo (które krok po kroku nagradzają za szansę) z powrotem w kierunku 0, a zatem są mniej tendencyjne niż krokowe (a pozostałe odchylenie jest bardziej konserwatywne).

Dużym problemem z AIC, który jest często pomijany, jest wielkość różnicy w wartościach AIC, powszechne jest, aby widzieć, że „niższa jest lepsza” i na tym poprzestać (a automatyczne postępy tylko to podkreślają). Jeśli porównujesz 2 modele i mają one bardzo różne wartości AIC, wówczas istnieje wyraźna preferencja dla modelu z niższym AIC, ale często będziemy mieć 2 (lub więcej) modeli o wartościach AIC, które są blisko siebie, w w tym przypadku użycie tylko modelu o najniższej wartości AIC spowoduje pominięcie cennych informacji (a wnioskowanie na temat terminów, które są w tym modelu lub nie, ale różnią się w innych podobnych modelach, będzie bez znaczenia lub gorsze). Informacje spoza samych danych (na przykład, jak twarde / drogie) są w celu zebrania zestawu zmiennych predykcyjnych) mogą sprawić, że model z nieco wyższym AIC będzie bardziej pożądany do stosowania bez znacznej utraty jakości. Innym podejściem jest użycie średniej ważonej podobnych modeli (prawdopodobnie doprowadzi to do podobnych ostatecznych prognoz do karanych metod, takich jak regresja grzbietu lub lasso, ale proces myślowy prowadzący do modelu może pomóc w zrozumieniu).

Greg Snow
źródło
Dziękuję @GregSnow za odpowiedź. Czy mogę zapytać, jakie są (różne) założenia dotyczące wartości p i wyboru modelu opartego na AIC? Czy zastosowanie dwukierunkowego (do przodu / do tyłu) lub wypróbowanie pełnego podzbioru mniej więcej rozwiąże problem znalezienia lokalnego optymalnego modelu po prostu za pomocą wyboru krokowego do przodu lub do tyłu? (chociaż problem nadmiernego dopasowania zawsze występuje w metodzie AIC / wartość p, a LASSO i / lub LAR jest lepszą opcją)
tiantianchen
Ponieważ ani wartości p, ani AIC nie zostały zaprojektowane do wyboru modelu, nie mają założeń do wyboru modelu. Oba zostały zaprojektowane, aby wykonać jedno porównanie, zastanów się, ile porównań ma miejsce w regresji krokowej, czy naprawdę uważasz, że „najlepszy” krok jest wykonywany za każdym razem?
Greg Snow,
@GregSnow. Moje odniesienie do nauki AIC było następujące - stat.cmu.edu/~larry/=stat705/Lecture16.pdf, który wydaje się umieszczać AIC w branży wyboru modeli. Ponadto, gdy widziałem AIC używane w modelach Arima z szeregów czasowych, zawsze było ono używane do wyboru modelu.
Meh
@aginensky, Yes, AIC (i inne) są używane do wyboru modelu. Nie oznacza to, że AIC był przeznaczony do wyboru modelu, ani że jest nawet odpowiedni do wyboru modelu, lub że automatyczny wybór modelu odpowiada na znaczące pytanie. Wcześniej używałem śrubokręta jako młotka, co nie oznacza, że ​​ogólnie jest to dobry pomysł.
Greg Snow,
„W niniejszym artykule opisano, w jaki sposób można systematycznie rozwiązać problem wyboru modelu statystycznego, stosując kryteria informacyjne (AIC) wprowadzone przez autora w 1971 r.” Z Akaike, „Nowe spojrzenie na identyfikację modelu statystycznego”. Więc nawet jeśli AIC jest młotkiem używanym do problemu, który najlepiej rozwiązać śrubokrętem, to według projektanta tego młotka młotek był właściwym sposobem rozwiązania tego problemu. Prawidłowo lub niepoprawnie AIC został zaprojektowany do wyboru modelu. Byłbym zachwycony, widząc inne spojrzenie na AIC. Nie krępuj się odpowiedzieć na to pytanie, ale skończyłem.
Meh
1

Moje doświadczenie z AIC polega na tym, że jeśli zmienne wydają się nieistotne, ale nadal pojawiają się w modelu z najmniejszym AIC, mogą się one zakłócać.

Sugeruję, aby sprawdzić, czy nie można pomylić. Usunięcie takich nieistotnych zmiennych powinno zmienić magnetude niektórych pozostałych oszacowanych współczynników o ponad 25%.

Adiaba
źródło
Proszę wyjaśnić, w jaki sposób OP „może sprawdzić, czy nie jest mylące”.
Jim
0

Myślę, że najlepszym wyborem modelu jest użycie pakietu MuMIn. To będzie jednoznaczny wynik i nie musisz szukać najniższych wartości AIC. Przykład:

d<-read.csv("datasource")
library(MuMIn)
fit<-glm(y~x1+x2+x3+x4,family=poisson,data=d)
get.models(dredge(fit,rank="AIC"))[1]
Ravi Mohan Tiwari
źródło
2
Powiedzenie, jakiego kodu możesz użyć, tak naprawdę nie odpowiada na pytanie, chyba że potrafisz wyjaśnić, w jaki sposób rozwiązuje to pytanie statystycznie. W każdym razie nic w pytaniu nie jest specyficzne dla konkretnego oprogramowania.
Nick Cox,