AIC lub wartość p: który wybrać do wyboru modelu?

22

Jestem zupełnie nowy w tej kwestii R, ale nie jestem pewien, który model wybrać.

  1. Zrobiłem stopniowe naprzód regresji wybranie każdej zmiennej opartej na najniższym AIC. Wymyśliłem 3 modele, które nie jestem pewien, który jest „najlepszy”.

    Model 1: Var1 (p=0.03) AIC=14.978
    Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = 12.543
    Model 3: Var1 (p=0.04) + Var2 (p=0.04) + Var3 (p=0.06) AIC= -17.09
    

    Skłaniam się ku modelowi nr 3, ponieważ ma on najniższy AIC (słyszałem, że ujemny jest w porządku), a wartości p są nadal raczej niskie.

    Sprawdziłem 8 zmiennych jako predyktorów masy pisklęcia i odkryłem, że te trzy zmienne są najlepszymi predyktorami.

  2. Mój następny krok do przodu wybrałem Model 2, ponieważ chociaż AIC było nieco większe, wszystkie wartości p były mniejsze. Czy zgadzasz się, że to najlepsze?

    Model 1: Var1 (p=0.321) + Var2 (p=0.162) + Var3 (p=0.163) + Var4 (p=0.222)  AIC = 25.63
    Model 2: Var1 (p=0.131) + Var2 (p=0.009) + Var3 (p=0.0056)                  AIC = 26.518
    Model 3: Var1 (p=0.258) + Var2 (p=0.0254)                                   AIC = 36.905
    

dzięki!

MEL
źródło
Czy możesz nam powiedzieć różnicę między (1) a (2)? Najwyraźniej coś się zmieniło, ponieważ Model 3 w (1) i Model 2 w (2) są nominalnie identyczne, ale wartości p i AIC różnią się.
whuber
2
To pytanie zostało powtórzone dwa razy, co oznacza, że ​​nie tylko musimy je zamknąć, ale także powiązane odpowiedzi, które zostały już dostarczone. Czy możesz zarejestrować swoje konto (zobacz FAQ ) i zwrócić uwagę na zasady księgowania StackExchange w przyszłości? Dzięki.
chl
@ Whuber, obawiam się, że nie rozumiem w pełni twojego pytania. To prawdopodobnie mój brak zrozumienia statystycznego. Ale aby spróbować wyjaśnić. Model 1 ma 4 zmienne, model 2 ma 3 zmienne, a model 3 ma 2 zmienne. Zmienne są w tej samej kolejności w każdym modelu (co oznacza zmienną one = temp w każdym modelu). Myślę, że @GaBorgulya i @djma doskonale odpowiedziały na moje pytanie. Zmienna 4 IS jest skorelowana ze zmienną 3. AH-HA! Ma sens. dzięki, oodles!
MEL
Przekształciłem twoją odpowiedź na powyższy komentarz. Jeśli uważasz, że jedna z obecnych odpowiedzi pomogła Ci lub odpowiedziała na twoje pytanie, nie zapomnij go zaakceptować, jak uprzejmie przypomniał @richiemorrisroe. BTW, dobrze widzieć, że zarejestrowałeś swoje konto.
chl

Odpowiedzi:

23

AIC jest miarą dobroci dopasowania, która faworyzuje mniejszy błąd resztkowy w modelu, ale karze za włączenie dalszych predyktorów i pomaga uniknąć przeregulowania. W drugim zestawie modeli model 1 (ten z najniższym AIC) może działać najlepiej, gdy jest używany do przewidywania poza zbiorem danych. Możliwym wyjaśnieniem, dlaczego dodanie Var4 do modelu 2 skutkuje niższym AIC, ale wyższe wartości p jest to, że Var4 jest nieco skorelowane z Var1, 2 i 3. Interpretacja modelu 2 jest zatem łatwiejsza.

GaBorgulya
źródło
31

Patrzenie na poszczególne wartości p może być mylące. Jeśli masz zmienne, które są współliniowe (mają wysoką korelację), otrzymasz duże wartości p. Nie oznacza to, że zmienne są bezużyteczne.

Zasadniczo, wybór modelu z kryteriami AIC jest lepszy niż patrzenie na wartości p.

Jednym z powodów, dla których nie można wybrać modelu o najniższym AIC, jest fakt, że stosunek zmiennej do punktu danych jest duży.

Należy pamiętać, że wybór modelu i dokładność prognoz są dość wyraźnymi problemami. Jeśli Twoim celem jest uzyskanie dokładnych prognoz, sugeruję sprawdzenie krzyżowe modelu poprzez rozdzielenie danych w zestawie szkoleniowym i testowym.

Artykuł na temat wyboru zmiennych: Stochastyczne zespoły krokowe do wyboru zmiennych

djma
źródło
4
Jeśli Twoim celem jest dokładność prognozowania, chcesz użyć AIC (ponieważ minimalizuje to oczekiwaną rozbieżność KL między dopasowanym modelem a prawdą). Jeśli chcesz spójnej procedury wyboru modelu (stałe p, rosnące n), możesz zamiast tego użyć, powiedzmy, BIC. Używanie wartości p w regresji krokowej do wybierania hipotez nie jest zdecydowanie zalecane.
emakalic
8
0,154|t|>log(N.) .
prawdopodobieństwo prawdopodobieństwa
-3

AIC jest motywowane oszacowaniem błędu uogólnienia (np. CP Mallow, BIC, ...). Jeśli chcesz model predykcji, lepiej użyj jednego z tych kryteriów. Jeśli chcesz, aby Twój model wyjaśniał zjawisko, użyj wartości p.

Zobacz także tutaj .

JohnRos
źródło