Mam model regresji liniowej z obserwacjami próbki i zmiennych i chcę wiedzieć:
- Czy określona zmienna jest wystarczająco istotna, aby pozostać uwzględniona w modelu.
- Czy inna zmienna (z obserwacjami) powinna być uwzględniona w modelu.
Jakie statystyki mogą mi pomóc? Jak uzyskać je najbardziej wydajnie?
regression
Wilhelm
źródło
źródło
Popieram komentarz Roba. Coraz bardziej preferowaną alternatywą jest uwzględnienie wszystkich zmiennych i zmniejszenie ich do 0. Patrz Tibshirani, R. (1996). Skurcz regresji i selekcja za pomocą lasso.
http://www-stat.stanford.edu/~tibs/lasso/lasso.pdf
źródło
Dla części 1, szukasz dla testu F . Obliczyć resztkową sumę kwadratów z każdego pasującego modelu i obliczyć statystykę F, której można użyć do znalezienia wartości p na podstawie rozkładu F lub innego wygenerowanego przez siebie rozkładu zerowego.
źródło
Kolejny głos na odpowiedź Roba.
Istnieje również kilka interesujących pomysłów w literaturze „względnego znaczenia”. W pracy opracowano metody mające na celu określenie, jak duże znaczenie ma każdy z wielu predyktorów kandydujących. Istnieją metody bayesowskie i częste. Sprawdź pakiet „relaimpo” w R pod kątem cytowań i kodu.
źródło
Podoba mi się również odpowiedź Roba. A jeśli używasz SAS zamiast R, możesz użyć PROC GLMSELECT dla modeli, które byłyby wykonane z PROC GLM, chociaż działa dobrze również w przypadku niektórych innych modeli. Widzieć
Flom i Cassell „Stopniowe kroki: dlaczego metody stopniowego wyboru są złe i czego powinieneś używać” prezentowane w różnych grupach, ostatnio NESUG 2009
źródło