Z tego, co rozumiem, wybór zmiennych oparty na wartościach p (przynajmniej w kontekście regresji) jest wysoce wadliwy. Wygląda na to, że wybór zmiennych oparty na AIC (lub podobny) jest przez niektórych uważany za wadliwy, chociaż wydaje się to nieco niejasne (np. Patrz moje pytanie i kilka linków na ten temat tutaj: Czym dokładnie jest „stopniowy wybór modelu”? ).
Ale powiedz, że wybierasz jedną z tych dwóch metod, aby wybrać najlepszy zestaw predyktorów w swoim modelu.
Burnham i Anderson 2002 (Wybór modelu i wnioskowanie multimodelowe: Praktyczne podejście teoretyczno-informacyjne, strona 83) stwierdzają, że nie należy mieszać wyboru zmiennych opartych na AIC z wyborem opartym na testowaniu hipotez : „Testy zerowych hipotez i podejść teoretyczno-informacyjnych powinny nie mogą być używane razem; są to bardzo różne paradygmaty analizy ”.
Zuur i in. 2009 (Modele z efektami mieszanymi z rozszerzeniami w ekologii z R, strona 541) wydają się opowiadać się za wykorzystaniem AIC do znalezienia optymalnego modelu, a następnie do przeprowadzenia „dostrajania” za pomocą testowania hipotez : „Wadą jest to, że AIC może być konserwatywny , a może być konieczne zastosowanie drobnego dostrajania (przy użyciu testowania hipotez z pierwszego podejścia) po wybraniu przez AIC optymalnego modelu ”.
Możesz zobaczyć, jak to powoduje, że czytelnik obu książek jest zdezorientowany, jakie podejście zastosować.
1) Czy są to po prostu różne „obozy” myślenia statystycznego i temat niezgody między statystykami? Czy jedno z tych podejść jest teraz po prostu „nieaktualne”, ale zostało uznane za właściwe w momencie pisania? A może od samego początku jest po prostu coś złego?
2) Czy istniałby scenariusz, w którym takie podejście byłoby odpowiednie? Na przykład pochodzę z pochodzenia biologicznego, gdzie często próbuję ustalić, które zmienne, jeśli w ogóle, wydają się wpływać na moją odpowiedź. Często mam wiele zmiennych objaśniających kandydatów i staram się znaleźć, które są „ważne” (w kategoriach względnych). Należy również zauważyć, że zestaw kandydujących zmiennych predykcyjnych jest już zredukowany do tych, które uważa się za mające znaczenie biologiczne, ale może to nadal obejmować 5-20 potencjalnych predyktorów.
Odpowiedzi:
Krótka odpowiedź.
Podejście polegające na wyborze lub dostrajaniu modelu opartego na danych , a następnie zastosowaniu standardowych metod wnioskowania na wybranym / zestrojonym modelu (à la Zuur i in. Oraz wielu innych szanowanych ekologów, takich jak Crawley), zawsze przyniesie zbyt optymistyczne wyniki : zbyt wąskie zaufanie interwały (słabe pokrycie), zbyt małe wartości p (wysoki błąd typu I). Jest tak, ponieważ standardowe metody wnioskowania zakładają, że model jest określony z góry ; nie uwzględniają procesu strojenia modelu.
Właśnie dlatego badacze tacy jak Frank Harrell ( Strategie modelowania regresji ) zdecydowanie odrzucają techniki selekcji oparte na danych, takie jak regresja krokowa, i ostrzegają, że należy zmniejszyć złożoność modelu („zmniejszenie wymiarów”, np. Obliczając PCA zmiennych predykcyjnych) i wybranie pierwszych kilku osi PCA jako predyktorów) poprzez spojrzenie tylko na zmienne predykcyjne.
Jeśli jesteś zainteresowany tylko znalezieniem najlepszego modelu predykcyjnego (i nie jesteś zainteresowany jakimkolwiek wiarygodnym oszacowaniem niepewności twojej prognozy, która wchodzi w zakres wnioskowania!), To dostrojenie modelu opartego na danych jest w porządku (chociaż wybór krokowy rzadko jest najlepszą dostępną opcją); Algorytmy uczenia maszynowego / statystycznego uczą się, aby uzyskać najlepszy model predykcyjny. Błąd „testu” lub „braku próbki” należy ocenić na oddzielnej, przetrzymywanej próbce, lub wszelkie metody strojenia należy włączyć do procedury weryfikacji krzyżowej.
Wydaje się, że w opiniach na ten temat nastąpiła ewolucja historyczna; wiele klasycznych podręczników statystycznych, zwłaszcza tych, które koncentrują się na regresji, prezentują podejścia etapowe, a następnie standardowe procedury wnioskowania bez uwzględnienia efektów wyboru modelu [potrzebne źródło ...]
Istnieje wiele sposobów kwantyfikacji znaczenia zmiennych i nie wszystkie wpadają w pułapkę selekcji po zmiennej.
źródło
Pochodzę z pochodzenia biologicznego i jestem zatrudnionym biostatystą, pracującym w szpitalu uniwersyteckim. Dużo o tym czytałem, szczególnie ostatnio, w tym zwłaszcza opinie Harrella na temat www oraz jego książkę Regres Modeling Strategies. Już go nie cytuję, ale mówiąc z doświadczenia: myślę, że jest to ściśle związane z dziedziną. Myślę, że to pierwszy poziom, który należy uwzględnić. Drugim poziomem byłoby przyjęcie dobrego racjonalnego podejścia, co oznacza, że twoje predyktory powinny mieć kluczowe znaczenie dla wyrażenia tego, co chcesz przewidzieć, na podstawie doświadczenia naukowego. Po trzecie, należy wziąć pod uwagę interakcje, które są niezwykle istotne i można je rozwiązać za pomocą przyjętego podejścia statystycznego lub wglądu. Tylko czwarta jest wybrana metoda, w moim przypadku z danymi szpitalnymi, która dość często ma około x * 10 ^ 3 punktów danych i x * 10 ^ 1 obserwacji np.
źródło