Zrozumienie AIC i kryterium Schwarz

13

Korzystam z modelu logistycznego. Rzeczywisty zestaw danych modelu zawiera ponad 100 zmiennych, ale wybieram zestaw danych testowych, w którym jest około 25 zmiennych. Wcześniej stworzyłem również zestaw danych, który zawierał 8–9 zmiennych. Powiedziano mi, że do porównania modelu można użyć wartości AIC i SC. Zauważyłem, że model ma wyższe wartości SC, nawet gdy zmienna ma niskie wartości p (np. 0053). Według mojej intuicji model, który ma zmienne o dobrym poziomie istotności, powinien dawać niskie wartości SC i AIC. Ale tak się nie dzieje. Czy ktoś może to wyjaśnić. Krótko mówiąc, chcę zadać następujące pytania:

  1. Czy liczba zmiennych ma coś wspólnego z SC AIC?
  2. Czy powinienem skoncentrować się na wartościach p lub niskich wartościach SC AIC?
  3. Jakie są typowe sposoby zmniejszania wartości SC AIC?
ayush biyani
źródło

Odpowiedzi:

15

2log()+2kkp

Sugerowałbym przyjrzenie się regresji karanej , która pozwala na dokonanie wyboru zmiennej, aby uniknąć problemów z przeregulowaniem. Jest to omówione w Strategiach modelowania regresji Franka Harrella (str. 207 i nast.) Lub Moons i wsp., Penalizowane oszacowanie maksymalnego prawdopodobieństwa w celu bezpośredniego dostosowania modeli prognostycznych i prognostycznych dla nadmiernej optymizmu: przykład kliniczny , J Clin Epid (2004) 57 ( 12).

Zobacz także pakiety Design ( lrm) i stepPlr ( step.plr) R lub pakiet ukarany . Możesz przeglądać powiązane pytania dotyczące wyboru zmiennych w tym SE.

chl
źródło
Cześć {Hi} chl, Dziękuję za odpowiedź .. Przyznaję, że dostałem trochę informacji od twojej odpowiedzi .. Pozwól mi wyrazić zrozumienie, a następnie możesz skomentować proszę. (1) Otrzymuję podpowiedź, że wartości P mogą spaść, jeśli twoja próbka jest duża ... - Czy to prawda? W moim rozumieniu wartości p mogą pokazać tylko, czy hipoteza zerowa jest odrzucana. (2) Rozumiem teraz, że muszę widzieć różnicę w wartościach AIC tylko z przechwytywaniem i współzmiennymi. Wydaje mi się, że kiedy mówimy, że chcemy obniżyć AIC, mamy na myśli ten sam zestaw danych. Dostaję postaci lewo w moim komentarzu więc skomentować znowu raz odpowiesz proszę
Ayush biyani
1
@ayush (1) statystyki testu (np. Wald) zależą od wielkości próbki (błąd standardowy zmniejsza się wraz ze wzrostem wielkości próbki, a przy większej próbce prawdopodobnie uzyskasz niższe wartości p). (2) tak, chociaż AIC może być wykorzystywany do porównywania modeli nie zagnieżdżonych, tutaj myślałem o tym jako o sposobie porównywania różnych modeli o coraz większej złożoności.
chl
dzięki jeszcze raz. Teraz rozumiem istotę wartości p. Jakieś 5 minut wstecz uruchomiłem model, który daje mi wartości p poniżej 0,05 dla wszystkich zmiennych, ale AIC 28238.407 tylko z przechwyceniem i ze zmiennymi towarzyszącymi 21507.933. Mam również przypadek, w którym AIC to 16035.xy tylko z przechwytywaniem i ze zmiennymi towarzyszącymi 4234.xy. Jak oceniasz porównanie dwóch przypadków? Należy pamiętać, że drugi model miał różne zmienne 25 var, podczas gdy pierwszy miał 20., więc drugi miał więcej zmiennych (25 w porównaniu do 20) miał niższy AIC. Chociaż wartości p nie były dla wszystkich 0,05. Proszę zasugerować ... więcej, aby zapytać po tym .. Dzięki.
ayush biyani
@ayush Trudno odpowiedzieć na pytanie o jakość modelu, nie wiedząc, jak zmienne zostały wybrane. Różnica w AIC między modelem zawierającym tylko punkt przecięcia a niektórymi zmiennymi towarzyszącymi daje wskazanie o „sile wyjaśniającej” tych predyktorów (odchylenie resztkowe wydaje się znacznie zmniejszać w drugim przypadku, który pokazałeś, a AIC karze za # parametry, jak powiedziałem w mojej odpowiedzi). Nie jest to pełna odpowiedź na temat znaczenia tych predyktorów. Sugeruję, abyś zadał bardziej szczegółowe pytanie (IMO), np. Na temat wyboru zmiennych w GLM do konkretnego badania.
chl
8

Grupowanie SC i AIC razem jest złe . Są to bardzo różne rzeczy, nawet jeśli ludzie bardzo je niewłaściwie wykorzystują. AIC ma znaczenie, gdy przewidujesz różne rzeczy, użycie SC w tym scenariuszu może prowadzić (nie zawsze) do błędnych wyników. Podobnie, jeśli jesteś zainteresowany dokonaniem wyboru modelu z zasadą parsimony (Razor Occam) SC, lepiej. Nie chcę wchodzić w szczegóły teoretyczne, ale w skrócie: SC - dobre dla oszczędnych modeli, gdy chcesz czegoś równoważnego najprostszemu możliwemu modelowi do wyjaśnienia swoich danych, AIC - Kiedy chcesz przewidzieć. AIC nie zakłada, że ​​twój prawdziwy model leży w przestrzeni modelu, w której podobnie jak SC.

Po drugie, jednoczesne stosowanie wartości p i kryteriów informacyjnych może również wprowadzać w błąd, jak wyjaśnia chl .

suncoolsu
źródło