Jestem zupełnie nowy w tej kwestii R, ale nie jestem pewien, który model wybrać.
Zrobiłem stopniowe naprzód regresji wybranie każdej zmiennej opartej na najniższym AIC. Wymyśliłem 3 modele, które nie jestem pewien, który jest „najlepszy”.
Model 1: Var1 (p=0.03) AIC=14.978 Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = 12.543 Model 3: Var1 (p=0.04) + Var2 (p=0.04) + Var3 (p=0.06) AIC= -17.09
Skłaniam się ku modelowi nr 3, ponieważ ma on najniższy AIC (słyszałem, że ujemny jest w porządku), a wartości p są nadal raczej niskie.
Sprawdziłem 8 zmiennych jako predyktorów masy pisklęcia i odkryłem, że te trzy zmienne są najlepszymi predyktorami.
Mój następny krok do przodu wybrałem Model 2, ponieważ chociaż AIC było nieco większe, wszystkie wartości p były mniejsze. Czy zgadzasz się, że to najlepsze?
Model 1: Var1 (p=0.321) + Var2 (p=0.162) + Var3 (p=0.163) + Var4 (p=0.222) AIC = 25.63 Model 2: Var1 (p=0.131) + Var2 (p=0.009) + Var3 (p=0.0056) AIC = 26.518 Model 3: Var1 (p=0.258) + Var2 (p=0.0254) AIC = 36.905
dzięki!
Odpowiedzi:
AIC jest miarą dobroci dopasowania, która faworyzuje mniejszy błąd resztkowy w modelu, ale karze za włączenie dalszych predyktorów i pomaga uniknąć przeregulowania. W drugim zestawie modeli model 1 (ten z najniższym AIC) może działać najlepiej, gdy jest używany do przewidywania poza zbiorem danych. Możliwym wyjaśnieniem, dlaczego dodanie Var4 do modelu 2 skutkuje niższym AIC, ale wyższe wartości p jest to, że Var4 jest nieco skorelowane z Var1, 2 i 3. Interpretacja modelu 2 jest zatem łatwiejsza.
źródło
Patrzenie na poszczególne wartości p może być mylące. Jeśli masz zmienne, które są współliniowe (mają wysoką korelację), otrzymasz duże wartości p. Nie oznacza to, że zmienne są bezużyteczne.
Zasadniczo, wybór modelu z kryteriami AIC jest lepszy niż patrzenie na wartości p.
Jednym z powodów, dla których nie można wybrać modelu o najniższym AIC, jest fakt, że stosunek zmiennej do punktu danych jest duży.
Należy pamiętać, że wybór modelu i dokładność prognoz są dość wyraźnymi problemami. Jeśli Twoim celem jest uzyskanie dokładnych prognoz, sugeruję sprawdzenie krzyżowe modelu poprzez rozdzielenie danych w zestawie szkoleniowym i testowym.
Artykuł na temat wyboru zmiennych: Stochastyczne zespoły krokowe do wyboru zmiennych
źródło
AIC jest motywowane oszacowaniem błędu uogólnienia (np. CP Mallow, BIC, ...). Jeśli chcesz model predykcji, lepiej użyj jednego z tych kryteriów. Jeśli chcesz, aby Twój model wyjaśniał zjawisko, użyj wartości p.
Zobacz także tutaj .
źródło