REML vs ML stepAIC

10

Czuję się przytłoczony po próbie zagłębienia się w literaturze na temat tego, jak uruchomić moją analizę modeli mieszanych, a następnie użyć AIC do wyboru najlepszego modelu lub modeli. Nie sądzę, że moje dane są tak skomplikowane, ale szukam potwierdzenia, że ​​to, co zrobiłem, jest prawidłowe, a następnie doradzam, jak postępować. Nie jestem pewien, czy powinienem używać lme lub lmer, a następnie z którymkolwiek z nich, czy powinienem używać REML lub ML.

Mam wartość selekcji i chcę wiedzieć, które zmienne towarzyszące najlepiej wpływają na tę wartość i pozwalają na przewidywania. Oto niektóre przykładowe dane i mój kod do mojego testu, z którym pracuję:

ID=as.character(rep(1:5,3))
season=c("s","w","w","s","s","s","s","w","w","w","s","w","s","w","w")
time=c("n","d","d","n","d","d","n","n","n","n","n","n","d","d","d")
repro=as.character(rep(1:3,5))
risk=runif(15, min=0, max=1.1)
comp1=rnorm(15, mean = 0, sd = 1)
mydata=data.frame(ID, season, time, repro, risk, comp1)
c1.mod1<-lmer(comp1~1+(1|ID),REML=T,data=mydata)
c1.mod2<-lmer(comp1~risk+(1|ID),REML=T,data=mydata)
c1.mod3<-lmer(comp1~season+(1|ID),REML=T,data=mydata)
c1.mod4<-lmer(comp1~repro+(1|ID),REML=T,data=mydata)
c1.mod5<-lmer(comp1~time+(1|ID),REML=T,data=mydata)
c1.mod6<-lmer(comp1~season+repro+time+(1|ID),REML=T,data=mydata)
c1.mod7<-lmer(comp1~risk+season+season*time+(1|ID),REML=T,data=mydata)

Mam ~ 19 modeli, które eksplorują te dane za pomocą różnych kombinacji i do 2-stronnych warunków interakcji, ale zawsze z identyfikatorem jako efektem losowym i comp1 jako moją zmienną zależną.

  • Pytanie 1 Którego użyć? lme czy lmer? czy to ma znaczenie?

W obu z nich mam opcję użycia ML lub REML - i otrzymuję drastycznie różne odpowiedzi - używając ML, a następnie AIC, otrzymuję 6 modeli o podobnych wartościach AIC, a kombinacje modeli po prostu nie mają sensu, podczas gdy REML powoduje, że 2 najbardziej prawdopodobne modele są najlepsze. Jednak po uruchomieniu REML nie mogę już używać anova.

  • Q2 jest głównym powodem używania ML w porównaniu z REML z powodu korzystania z ANOVA? To nie jest dla mnie jasne.

Nadal nie jestem w stanie uruchomić stepAIC lub nie znam innego sposobu zawężenia tych 19 modeli.

  • Pytanie 3 czy istnieje sposób na użycie stepAIC w tym momencie?
Kerry
źródło
3
W drugim kwartale ML jest konieczne, ponieważ porównania przy użyciu REML nie są ważne, gdy zmieniają się ustalone efekty. Możliwe użyteczne pytanie pokrewne znajduje się tutaj: stats.stackexchange.com/a/16015/3601
Aaron opuścił Stack Overflow
@Aaron Patrzyłem już na to pytanie, ale nadal byłem zdezorientowany. Używać REML „działa” tylko, gdy zmienia się efekt losowy? Oczywiście nie rozumiem wystarczająco dużo ML vs REML. Dzięki, to pomaga w jednym z moich pytań!
Kerry,
Tak to jest poprawne. Podczas porównywania modeli REML należy używać tylko wtedy, gdy modele mają te same stałe efekty. Odpowiedź rozwinięta poniżej.
Aaron opuścił Stack Overflow

Odpowiedzi:

16

Pytanie 1 Którego użyć? lme czy lmer? czy to ma znaczenie? Albo jedno jest w porządku. Dadzą ci takie same pasowania. lmeda ci p-wartości i lmernie zrobi tego, ale to więcej niż chcę się tutaj zająć. Najbardziej znanym odniesieniem jest jeden z postów Douga Batesa na liście dyskusyjnej R-help tutaj .

(zastrzeżenie: używają nieco innych algorytmów, więc są potencjalnie pewne trudne obliczeniowo przypadki, w których jeden lub drugi mógłby działać lepiej, ale są one bardzo rzadkie w praktyce i najprawdopodobniej wskazują na pewną błędną specyfikację modelu. Zobacz Całkowicie różne wyniki z lmer () i lme () .)

Q2 jest głównym powodem używania ML w porównaniu z REML z powodu korzystania z ANOVA? To nie jest dla mnie jasne. ML jest konieczny, ponieważ porównania przy użyciu REML nie są ważne, gdy zmieniają się ustalone efekty. Możliwe przydatne pokrewne pytanie znajduje się tutaj: https://stats.stackexchange.com/a/16015/3601 . Aby odpowiedzieć na twoje pytanie w powyższym komentarzu, tak, przy porównywaniu modeli REML należy używać tylko wtedy, gdy modele mają te same stałe efekty (to znaczy, gdy zmieniają się tylko efekty losowe). Prawdopodobieństwo REML zależy od tego, które efekty stałe występują w modelu, a zatem nie są porównywalne, jeśli zmiany efektów stałych się zmienią. Uważa się jednak, że REML daje lepsze oszacowania dla efektów losowych, więc typową radą jest dopasowanie najlepszego modelu przy użyciu REML do ostatecznego wnioskowania i raportowania.

Pytanie 3 czy istnieje sposób na użycie stepAIC w tym momencie? Aby porównać 19 modeli, które mają sens w twojej sytuacji, po prostu porównaj AIC dla wszystkich z nich. W ogóle nie ma powodu, aby stosować procedurę krokową. Procedury etapowe są obecnie powszechnie uważane za przestarzałe, ponieważ nie gwarantują znalezienia najlepszego modelu, a komputery ułatwiają porównywanie wielu modeli.

Aaron opuścił Stack Overflow
źródło
1

W trakcie dalszych poszukiwań znalazłem również zasoby, które stanowią kopię zapasową linków dostarczonych przez Aarona i są dobrą lekturą dla tych, którzy zaczynają jak ja. Rozdziały połączone na http://lme4.r-forge.r-project.org/ w celu uzyskania przykładów sprawdź link do slajdów http://lme4.r-forge.r-project.org/slides/ na tej samej stronie projektu . Wiele krótkich kursów ma nawet przykładowy kod R, co było bardzo pomocne.
Również ta krótka odpowiedź dr Bolkera http://r.789695.n4.nabble.com/lme-vs-lmer-how-do-they-differ-td2534332.html

Kerry
źródło