Mam zestaw danych z około 30 zmiennymi niezależnymi i chciałbym zbudować uogólniony model liniowy (GLM) w celu zbadania zależności między nimi a zmienną zależną.
Wiem, że metoda, której nauczono mnie w tej sytuacji, stopniowa regresja, jest obecnie uważana za grzech statystyczny .
Jakie nowoczesne metody wyboru modelu należy zastosować w tej sytuacji?
Odpowiedzi:
Istnieje kilka alternatyw dla regresji krokowej . Najczęściej używane, jakie widziałem, to:
Zarówno regresja PLS, jak i LASSO są zaimplementowane w takich pakietach R.
PLS : http://cran.r-project.org/web/packages/pls/ i
LARS : http://cran.r-project.org/web/packages/lars/index.html
Jeśli chcesz tylko zbadać związek między zmienną zależną a zmiennymi niezależnymi (np. Nie potrzebujesz testów istotności statystycznej), poleciłbym również metody uczenia maszynowego , takie jak losowe lasy lub drzewa klasyfikacji / regresji . Lasy losowe mogą również przybliżać złożone nieliniowe relacje między zmiennymi zależnymi i niezależnymi, które mogły nie zostać ujawnione za pomocą technik liniowych (takich jak regresja liniowa ).
Dobrym punktem wyjścia do uczenia maszynowego może być widok zadania Uczenie maszynowe w CRAN:
Widok zadań uczenia maszynowego : http://cran.r-project.org/web/views/MachineLearning.html
źródło
Inną opcją, którą można rozważyć przy wyborze i regulowaniu zmiennych, jest siatka elastyczna . Jest zaimplementowany w R za pośrednictwem pakietu glmnet .
źródło
Uśrednianie modelu jest jedną z dróg (podejście teoretyczne). Pakiet R glmulti może wykonywać modele liniowe dla każdej kombinacji zmiennych predykcyjnych i przeprowadzać uśrednianie modelu dla tych wyników.
Zobacz http://sites.google.com/site/mcgillbgsa/workshop/glmulti
Nie zapomnij jednak najpierw zbadać kolinearności między zmiennymi predykcyjnymi. Przydatne są tutaj czynniki wariancji inflacji (dostępne w pakiecie R „samochód”).
źródło
MuMIn
,AICcmodavg
opakowania, choćglmulti
jest mądrzejszy o dużych zestawów modelowych.@johannes dał doskonałą odpowiedź. Jeśli jesteś użytkownikiem SAS, LASSO jest dostępne przez PROC GLMSELECT, a częściowe najmniejsze kwadraty za pośrednictwem PROC PLS.
David Cassell i ja przeprowadziliśmy prezentację na temat LASSO (i regresji metodą najmniejszego kąta) w kilku grupach użytkowników SAS. Jest dostępny tutaj
źródło
Interesująca dyskusja. Określanie regresji krokowej jako grzechu statystycznego jest trochę religijnym stwierdzeniem - dopóki ktoś wie, co robi i cele tego ćwiczenia są jasne, jest to zdecydowanie dobre podejście z własnym zestawem założeń i na pewno jest stronniczy i nie gwarantuje optymalności itp. Jednak to samo można powiedzieć o wielu innych rzeczach, które robimy. Nie widziałem wspomnianego CCA, który rozwiązuje bardziej fundamentalny problem struktury korelacji w przestrzeni współzmiennej, gwarantuje optymalność, jest już od dłuższego czasu i ma nieco krzywą uczenia się. Jest wdrażany na różnych platformach, w tym R.
źródło