Równoważność wartości AIC i pw wyborze modelu

9

W komentarzu do odpowiedzi na to pytanie stwierdzono, że zastosowanie AIC w wyborze modelu było równoważne z zastosowaniem wartości p 0,154.

Próbowałem w R, gdzie użyłem algorytmu wyboru podzbioru „wstecznego”, aby wyrzucić zmienne z pełnej specyfikacji. Po pierwsze, sekwencyjnie wyrzucając zmienną o najwyższej wartości p i zatrzymując się, gdy wszystkie wartości p są poniżej 0,154, a po drugie, upuszczając zmienną, która powoduje najniższy AIC po usunięciu, dopóki nie można dokonać żadnej poprawy.

Okazało się, że dają one w przybliżeniu takie same wyniki, gdy jako wartość progową używam wartości p 0,154.

Czy to rzeczywiście prawda? Jeśli tak, to czy ktoś wie, dlaczego, czy może odwołać się do źródła, które to wyjaśnia?

PS Nie mogłem zapytać osoby komentującej ani napisać komentarza, ponieważ właśnie się zarejestrowałem. Wiem, że nie jest to najbardziej odpowiednie podejście do wyboru modelu i wnioskowania itp.

Niels
źródło
(1) Modelowanie prognostyczne z analizą regresji logistycznej: porównanie metod selekcji i szacowania w małych zestawach danych. Statistics in Medicine, 19, 1059-1079 (2) true dla zmiennych z df1, w oparciu o definicję AIC. Ale może być niższy, jeśli masz wyższy stopień swobody zmiennych
Charles

Odpowiedzi:

13

Wybór zmiennych dokonywany za pomocą testów statystycznych lub AIC jest bardzo problematyczny. Jeśli używasz testów , AIC stosuje wartość graniczną = 2,0, co odpowiada . AIC zastosowany do poszczególnych zmiennych nie robi nic nowego; używa po prostu bardziej rozsądnego niż 0,05. Bardziej rozsądnym (mniej zakłócającym wnioskowanie) jest 0,5.χ2χ2α=0.157αα

Frank Harrell
źródło
+1 Spędziłem tak dużo czasu na konstruowaniu mojej (teraz usuniętej) odpowiedzi, że nawet nie widziałem, że w międzyczasie ją opublikowałem. Zamiast tego wybrałbym właśnie ten.
Glen_b