Czy zmienna ma znaczenie w modelu regresji liniowej?

9

Mam model regresji liniowej z obserwacjami próbki i zmiennych i chcę wiedzieć:

  1. Czy określona zmienna jest wystarczająco istotna, aby pozostać uwzględniona w modelu.
  2. Czy inna zmienna (z obserwacjami) powinna być uwzględniona w modelu.

Jakie statystyki mogą mi pomóc? Jak uzyskać je najbardziej wydajnie?

Wilhelm
źródło

Odpowiedzi:

26

Istotność statystyczna zwykle nie jest dobrą podstawą do ustalenia, czy zmienna powinna zostać uwzględniona w modelu. Testy statystyczne zaprojektowano w celu przetestowania hipotez, a nie wyboru zmiennych. Wiem, że wiele podręczników omawia wybór zmiennych za pomocą testów statystycznych, ale ogólnie jest to złe podejście. Zobacz książkę Harrella, Regres Modeling Strategies, z kilku powodów. Obecnie wybór zmiennych w oparciu o AIC (lub coś podobnego) jest zwykle preferowany.

Rob Hyndman
źródło
Właściwie, według mojej najlepszej pamięci, Harrell zdecydowanie odradza korzystanie z AIC. Myślę, że walidacja krzyżowa byłaby prawdopodobnie najbezpieczniejszą metodą.
Tal Galili
1
AIC jest asymptotycznie równoważne CV. Zobacz odpowiedzi na stats.stackexchange.com/questions/577/… . Sprawdziłem Harrella, zanim napisałem tę odpowiedź, i nie zauważyłem zniechęcenia ze strony AIC. Ostrzega przed testami istotności po selekcji zmiennych za pomocą AIC lub innej metody.
Rob Hyndman
@Tal: Być może z jednego z jego artykułów, a nie z książki RMS, pamiętam, że Harrell sprzeciwił się użyciu AIC do prostego wyboru spośród wielu modeli. Myślę, że miał na myśli to, że musisz dodać zmienną na raz i metodycznie porównać dwa modele lub zastosować podobną strategię. (Żeby było jasne, jest to zgodne z odpowiedzią Roba).
ars 1'10
Przeprowadzając szybkie wyszukiwanie, zauważyłem, że Harrell pisze: „Uważaj na wybór modelu na podstawie wartości P, kwadratu R, częściowego kwadratu R, AIC, BIC, współczynników regresji lub współczynników Mallowsa”. Napisał to 14.12.08, na liście mailingowej zatytułowanej [R] Uzyskiwanie wartości p dla współczynników z funkcji LRM (Projektowanie pakietu) - tekst jawny. Chyba źle zrozumiałem jego znaczenie.
Tal Galili
2
@Tal, @Rob: W tym wątku mówi „Pamiętaj, aby stosować zasadę hierarchii”. Być może interesująca jest ta dyskusja medstats (przewiń w dół, aby zobaczyć odpowiedź Harrella): groups.google.com/group/medstats/browse_thread/thread/…
ars
4

Popieram komentarz Roba. Coraz bardziej preferowaną alternatywą jest uwzględnienie wszystkich zmiennych i zmniejszenie ich do 0. Patrz Tibshirani, R. (1996). Skurcz regresji i selekcja za pomocą lasso.

http://www-stat.stanford.edu/~tibs/lasso/lasso.pdf

użytkownik603
źródło
1
Czy jest jakiś sposób na określenie ilościowe tego, co jest obecnie „coraz bardziej preferowane”?
Tal Galili
Wydaje mi się, że w wielu dziedzinach uznano go za bardziej poprawny naukowo w tym sensie, że podejście skurczowe jest częściej stosowane w najnowszych stosowanych raportach statystycznych niż podejście * .IC. To pokazuje pewien - przynajmniej milczący - teoretyczny konsensus.
user603
1
@ user603 - masz również potencjalnie ogromną przewagę obliczeniową dzięki podejściu skurczowemu. Nie trzeba przeszukiwać2)pmodele
prawdopodobieństwo prawdopodobieństwa
3

Dla części 1, szukasz dla testu F . Obliczyć resztkową sumę kwadratów z każdego pasującego modelu i obliczyć statystykę F, której można użyć do znalezienia wartości p na podstawie rozkładu F lub innego wygenerowanego przez siebie rozkładu zerowego.

Eric Suh
źródło
1

Kolejny głos na odpowiedź Roba.

Istnieje również kilka interesujących pomysłów w literaturze „względnego znaczenia”. W pracy opracowano metody mające na celu określenie, jak duże znaczenie ma każdy z wielu predyktorów kandydujących. Istnieją metody bayesowskie i częste. Sprawdź pakiet „relaimpo” w R pod kątem cytowań i kodu.

Andrew Robinson
źródło
1

Podoba mi się również odpowiedź Roba. A jeśli używasz SAS zamiast R, możesz użyć PROC GLMSELECT dla modeli, które byłyby wykonane z PROC GLM, chociaż działa dobrze również w przypadku niektórych innych modeli. Widzieć

Flom i Cassell „Stopniowe kroki: dlaczego metody stopniowego wyboru są złe i czego powinieneś używać” prezentowane w różnych grupach, ostatnio NESUG 2009

Peter Flom
źródło