Mam pytania dotyczące AIC i mam nadzieję, że możesz mi pomóc. Zastosowałem wybór modelu (do tyłu lub do przodu) na podstawie AIC na moich danych. Niektóre wybrane zmienne zakończyły się wartościami p> 0,05. Wiem, że ludzie mówią, że powinniśmy wybierać modele oparte na AIC zamiast wartości p, więc wydaje się, że AIC i wartość p to dwie koncepcje różnicowe. Czy ktoś mógłby mi powiedzieć na czym polega różnica? Do tej pory rozumiem, że:
W przypadku wstecznego wyboru za pomocą AIC załóżmy, że mamy 3 zmienne (var1, var2, var3), a AIC tego modelu to AIC *. Jeśli wykluczenie którejkolwiek z tych trzech zmiennych nie skończyłoby się AIC, który jest znacznie niższy niż AIC * (pod względem rozkładu ch-kwadrat przy df = 1), to powiedzielibyśmy, że te trzy zmienne są wynikami końcowymi.
Znacząca wartość p dla zmiennej (np. Var1) w modelu z trzema zmiennymi oznacza, że znormalizowany rozmiar efektu tej zmiennej różni się znacznie od 0 (według Walda lub testu t).
Jaka jest podstawowa różnica między tymi dwiema metodami? Jak mam to zinterpretować, jeśli w moim najlepszym modelu (uzyskanym przez AIC) istnieją zmienne o nieistotnych wartościach p?
źródło
Nic więc dziwnego, jeśli porównasz to z użyciem mniejszej wartości granicznej dla wartości p, która czasami zawiera zmienne o wyższych wartościach p niż ta wartość graniczna.
źródło
Należy zauważyć, że ani wartości p, ani AIC nie zostały zaprojektowane do stopniowego wyboru modelu, w rzeczywistości założenia leżące u podstaw obu (ale różnych założeń) są naruszane po pierwszym etapie regresji krokowej. Jak wspomniano @PeterFlom, LASSO i / lub LAR są lepszymi alternatywami, jeśli czujesz potrzebę automatycznego wyboru modelu. Te metody przyciągają szacunki, które są duże przypadkowo (które krok po kroku nagradzają za szansę) z powrotem w kierunku 0, a zatem są mniej tendencyjne niż krokowe (a pozostałe odchylenie jest bardziej konserwatywne).
Dużym problemem z AIC, który jest często pomijany, jest wielkość różnicy w wartościach AIC, powszechne jest, aby widzieć, że „niższa jest lepsza” i na tym poprzestać (a automatyczne postępy tylko to podkreślają). Jeśli porównujesz 2 modele i mają one bardzo różne wartości AIC, wówczas istnieje wyraźna preferencja dla modelu z niższym AIC, ale często będziemy mieć 2 (lub więcej) modeli o wartościach AIC, które są blisko siebie, w w tym przypadku użycie tylko modelu o najniższej wartości AIC spowoduje pominięcie cennych informacji (a wnioskowanie na temat terminów, które są w tym modelu lub nie, ale różnią się w innych podobnych modelach, będzie bez znaczenia lub gorsze). Informacje spoza samych danych (na przykład, jak twarde / drogie) są w celu zebrania zestawu zmiennych predykcyjnych) mogą sprawić, że model z nieco wyższym AIC będzie bardziej pożądany do stosowania bez znacznej utraty jakości. Innym podejściem jest użycie średniej ważonej podobnych modeli (prawdopodobnie doprowadzi to do podobnych ostatecznych prognoz do karanych metod, takich jak regresja grzbietu lub lasso, ale proces myślowy prowadzący do modelu może pomóc w zrozumieniu).
źródło
Moje doświadczenie z AIC polega na tym, że jeśli zmienne wydają się nieistotne, ale nadal pojawiają się w modelu z najmniejszym AIC, mogą się one zakłócać.
Sugeruję, aby sprawdzić, czy nie można pomylić. Usunięcie takich nieistotnych zmiennych powinno zmienić magnetude niektórych pozostałych oszacowanych współczynników o ponad 25%.
źródło
Myślę, że najlepszym wyborem modelu jest użycie pakietu MuMIn. To będzie jednoznaczny wynik i nie musisz szukać najniższych wartości AIC. Przykład:
źródło