Sprzeczne podejścia do wyboru zmiennych: AIC, wartości p czy oba?

Z tego, co rozumiem, wybór zmiennych oparty na wartościach p (przynajmniej w kontekście regresji) jest wysoce wadliwy. Wygląda na to, że wybór zmiennych oparty na AIC (lub podobny) jest przez niektórych uważany za wadliwy, chociaż wydaje się to nieco niejasne (np. Patrz moje pytanie i kilka linków na ten temat tutaj: Czym dokładnie jest „stopniowy wybór modelu”? ).

Ale powiedz, że wybierasz jedną z tych dwóch metod, aby wybrać najlepszy zestaw predyktorów w swoim modelu.

Burnham i Anderson 2002 (Wybór modelu i wnioskowanie multimodelowe: Praktyczne podejście teoretyczno-informacyjne, strona 83) stwierdzają, że nie należy mieszać wyboru zmiennych opartych na AIC z wyborem opartym na testowaniu hipotez : „Testy zerowych hipotez i podejść teoretyczno-informacyjnych powinny nie mogą być używane razem; są to bardzo różne paradygmaty analizy ”.

Zuur i in. 2009 (Modele z efektami mieszanymi z rozszerzeniami w ekologii z R, strona 541) wydają się opowiadać się za wykorzystaniem AIC do znalezienia optymalnego modelu, a następnie do przeprowadzenia „dostrajania” za pomocą testowania hipotez : „Wadą jest to, że AIC może być konserwatywny , a może być konieczne zastosowanie drobnego dostrajania (przy użyciu testowania hipotez z pierwszego podejścia) po wybraniu przez AIC optymalnego modelu ”.

Możesz zobaczyć, jak to powoduje, że czytelnik obu książek jest zdezorientowany, jakie podejście zastosować.

1) Czy są to po prostu różne „obozy” myślenia statystycznego i temat niezgody między statystykami? Czy jedno z tych podejść jest teraz po prostu „nieaktualne”, ale zostało uznane za właściwe w momencie pisania? A może od samego początku jest po prostu coś złego?

2) Czy istniałby scenariusz, w którym takie podejście byłoby odpowiednie? Na przykład pochodzę z pochodzenia biologicznego, gdzie często próbuję ustalić, które zmienne, jeśli w ogóle, wydają się wpływać na moją odpowiedź. Często mam wiele zmiennych objaśniających kandydatów i staram się znaleźć, które są „ważne” (w kategoriach względnych). Należy również zauważyć, że zestaw kandydujących zmiennych predykcyjnych jest już zredukowany do tych, które uważa się za mające znaczenie biologiczne, ale może to nadal obejmować 5-20 potencjalnych predyktorów.

hypothesis-testing multiple-regression feature-selection model-selection aic Tilen
źródło

Zastanawiam się, jaki byłby statystyczny argument Zuura dla dostrajania z testowaniem hipotez po selekcji AIC. Nie wydaje się spójną strategią budowania modelu. Ale nie wiem wystarczająco dużo o tych rzeczach.

Richard Hardy,

Mam przeczucie, że sugestia Zuura i wsp. Jest zła (dlaczego miałbyś kiedykolwiek używać testów istotności do wyboru modelu?), Chociaż nie jestem pewien, czy wypowiedź Burnhama i Andersona jest poprawna. To dobre pytanie, ale musiałbym przeczytać więcej szczegółów technicznych niż do tej pory, aby na nie odpowiedzieć.

Kodiolog,

Użyłem obu metod w modelach do prognozowania sprzedaży paneli. Wydawało się, że stopniowa regresja wsteczna oparta na AIC daje lepsze wyniki z mojego doświadczenia.

Souptik Dhar

@SouptikDhar, kiedy mówisz „lepsze” wyniki, w jaki sposób dokładnie masz na myśli?

Tilen

Może odpowiedź zależy od celu analizy? W badaniu obserwacyjnym pożądane może być znalezienie najbardziej przypadkowego modelu, biorąc pod uwagę zestaw danych, opierając się na przykład na „selekcji zmiennych na podstawie AIC”. Jeśli jednak celem jest przetestowanie hipotezy, wówczas model, będący tradycją hipotezy pod względem odpowiednich wskaźników zastępczych dla zmiennych będących przedmiotem naszej hipotezy, jest już określony od samego początku, więc nie ma miejsca na wybór zmiennej IMHO?

Rodolphe

Odpowiedzi:

Krótka odpowiedź.

Podejście polegające na wyborze lub dostrajaniu modelu opartego na danych , a następnie zastosowaniu standardowych metod wnioskowania na wybranym / zestrojonym modelu (à la Zuur i in. Oraz wielu innych szanowanych ekologów, takich jak Crawley), zawsze przyniesie zbyt optymistyczne wyniki : zbyt wąskie zaufanie interwały (słabe pokrycie), zbyt małe wartości p (wysoki błąd typu I). Jest tak, ponieważ standardowe metody wnioskowania zakładają, że model jest określony z góry ; nie uwzględniają procesu strojenia modelu.

Właśnie dlatego badacze tacy jak Frank Harrell ( Strategie modelowania regresji ) zdecydowanie odrzucają techniki selekcji oparte na danych, takie jak regresja krokowa, i ostrzegają, że należy zmniejszyć złożoność modelu („zmniejszenie wymiarów”, np. Obliczając PCA zmiennych predykcyjnych) i wybranie pierwszych kilku osi PCA jako predyktorów) poprzez spojrzenie tylko na zmienne predykcyjne.

Jeśli jesteś zainteresowany tylko znalezieniem najlepszego modelu predykcyjnego (i nie jesteś zainteresowany jakimkolwiek wiarygodnym oszacowaniem niepewności twojej prognozy, która wchodzi w zakres wnioskowania!), To dostrojenie modelu opartego na danych jest w porządku (chociaż wybór krokowy rzadko jest najlepszą dostępną opcją); Algorytmy uczenia maszynowego / statystycznego uczą się, aby uzyskać najlepszy model predykcyjny. Błąd „testu” lub „braku próbki” należy ocenić na oddzielnej, przetrzymywanej próbce, lub wszelkie metody strojenia należy włączyć do procedury weryfikacji krzyżowej.

Wydaje się, że w opiniach na ten temat nastąpiła ewolucja historyczna; wiele klasycznych podręczników statystycznych, zwłaszcza tych, które koncentrują się na regresji, prezentują podejścia etapowe, a następnie standardowe procedury wnioskowania bez uwzględnienia efektów wyboru modelu [potrzebne źródło ...]

Istnieje wiele sposobów kwantyfikacji znaczenia zmiennych i nie wszystkie wpadają w pułapkę selekcji po zmiennej.

Burnham i Anderson zalecają zsumowanie wag AIC; istnieje dość spór co do tego podejścia.
Można dopasować pełny model (z odpowiednio skalowanymi / bezjednostkowymi predyktorami) i uszeregować predyktory według szacowanej wielkości [wielkość efektu biologicznego] lub wyniku Z [[klarowność ”/ wielkość efektu statystycznego].

Ben Bolker
źródło

Pochodzę z pochodzenia biologicznego i jestem zatrudnionym biostatystą, pracującym w szpitalu uniwersyteckim. Dużo o tym czytałem, szczególnie ostatnio, w tym zwłaszcza opinie Harrella na temat www oraz jego książkę Regres Modeling Strategies. Już go nie cytuję, ale mówiąc z doświadczenia: myślę, że jest to ściśle związane z dziedziną. Myślę, że to pierwszy poziom, który należy uwzględnić. Drugim poziomem byłoby przyjęcie dobrego racjonalnego podejścia, co oznacza, że twoje predyktory powinny mieć kluczowe znaczenie dla wyrażenia tego, co chcesz przewidzieć, na podstawie doświadczenia naukowego. Po trzecie, należy wziąć pod uwagę interakcje, które są niezwykle istotne i można je rozwiązać za pomocą przyjętego podejścia statystycznego lub wglądu. Tylko czwarta jest wybrana metoda, w moim przypadku z danymi szpitalnymi, która dość często ma około x * 10 ^ 3 punktów danych i x * 10 ^ 1 obserwacji np.

Nuke
źródło