Korzystam z modelu logistycznego. Rzeczywisty zestaw danych modelu zawiera ponad 100 zmiennych, ale wybieram zestaw danych testowych, w którym jest około 25 zmiennych. Wcześniej stworzyłem również zestaw danych, który zawierał 8–9 zmiennych. Powiedziano mi, że do porównania modelu można użyć wartości AIC i SC. Zauważyłem, że model ma wyższe wartości SC, nawet gdy zmienna ma niskie wartości p (np. 0053). Według mojej intuicji model, który ma zmienne o dobrym poziomie istotności, powinien dawać niskie wartości SC i AIC. Ale tak się nie dzieje. Czy ktoś może to wyjaśnić. Krótko mówiąc, chcę zadać następujące pytania:
- Czy liczba zmiennych ma coś wspólnego z SC AIC?
- Czy powinienem skoncentrować się na wartościach p lub niskich wartościach SC AIC?
- Jakie są typowe sposoby zmniejszania wartości SC AIC?
źródło
Grupowanie SC i AIC razem jest złe . Są to bardzo różne rzeczy, nawet jeśli ludzie bardzo je niewłaściwie wykorzystują. AIC ma znaczenie, gdy przewidujesz różne rzeczy, użycie SC w tym scenariuszu może prowadzić (nie zawsze) do błędnych wyników. Podobnie, jeśli jesteś zainteresowany dokonaniem wyboru modelu z zasadą parsimony (Razor Occam) SC, lepiej. Nie chcę wchodzić w szczegóły teoretyczne, ale w skrócie: SC - dobre dla oszczędnych modeli, gdy chcesz czegoś równoważnego najprostszemu możliwemu modelowi do wyjaśnienia swoich danych, AIC - Kiedy chcesz przewidzieć. AIC nie zakłada, że twój prawdziwy model leży w przestrzeni modelu, w której podobnie jak SC.
Po drugie, jednoczesne stosowanie wartości p i kryteriów informacyjnych może również wprowadzać w błąd, jak wyjaśnia chl .
źródło