REML lub ML, aby porównać dwa modele efektów mieszanych z różnymi stałymi efektami, ale z tym samym efektem losowym?

18

Tło: Uwaga: Mój zestaw danych i kod r są zawarte poniżej tekstu

Chciałbym użyć AIC do porównania dwóch modeli efektów mieszanych wygenerowanych przy użyciu pakietu lme4 w R. Każdy model ma jeden ustalony efekt i jeden efekt losowy. Efekt stały różni się w zależności od modelu, ale efekt losowy pozostaje taki sam między modelami. Odkryłem, że jeśli użyję REML = T, model2 ma niższy wynik AIC, ale jeśli użyję REML = F, model1 ma niższy wynik AIC.

Obsługa używania ML:

Zuur i in. (2009; STRONA 122) sugerują, że „Aby porównać modele z zagnieżdżonymi efektami stałymi (ale o tej samej losowej strukturze), należy zastosować oszacowanie ML, a nie REML”. Wskazuje mi to, że powinienem używać ML, ponieważ moje losowe efekty są takie same w obu modelach, ale moje stałe efekty różnią się. [Zuur i in. 2009. Modele z efektami mieszanymi i rozszerzenia w ekologii z R. Springerem.]

Obsługa korzystania z REML:

Zauważam jednak, że kiedy używam ML, wariancja rezydualna związana z efektami losowymi różni się między dwoma modelami (model1 = 136,3; model2 = 112,9), ale kiedy używam REML, jest taka sama między modelami (model1 = model2 = 151,5). To sugeruje, że powinienem zamiast tego użyć REML, aby losowa wariancja resztkowa pozostała taka sama między modelami z tą samą zmienną losową.

Pytanie:

Czy nie ma większego sensu stosowanie REML niż ML do porównywania modeli, w których zmieniają się efekty stałe, a efekty losowe pozostają takie same? Jeśli nie, czy możesz wyjaśnić dlaczego lub wskazać mi inną literaturę, która wyjaśnia więcej?

# Model2 "wins" if REML=T:
REMLmodel1 = lmer(Response ~ Fixed1 + (1|Random1),data,REML = T)
REMLmodel2 = lmer(Response ~ Fixed2 + (1|Random1),data,REML = T)
AIC(REMLmodel1,REMLmodel2)
summary(REMLmodel1)
summary(REMLmodel2)

# Model1 "wins" if REML=F:
MLmodel1 = lmer(Response ~ Fixed1 + (1|Random1),data,REML = F)
MLmodel2 = lmer(Response ~ Fixed2 + (1|Random1),data,REML = F)
AIC(MLmodel1,MLmodel2)
summary(MLmodel1)
summary(MLmodel2)

Zestaw danych:

Response    Fixed1  Fixed2  Random1
5.20    A   A   1
32.50   A   A   1
6.57    A   A   2
24.77   A   B   3
41.69   A   B   3
34.29   A   B   4
1.80    A   B   4
10.00   A   B   5
15.56   A   B   5
4.44    A   C   6
21.65   A   C   6
9.20    A   C   7
4.11    A   C   7
12.52   B   D   8
0.25    B   D   8
27.34   B   D   9
11.54   B   E   10
0.86    B   E   10
0.68    B   E   11
4.00    B   E   11
To figury
źródło
2
Faraway's (2006) Rozszerzanie modelu liniowego o R (s. 156): „Powodem jest to, że REML szacuje efekty losowe, biorąc pod uwagę liniowe kombinacje danych, które usuwają ustalone efekty. Jeśli te ustalone efekty zostaną zmienione, prawdopodobieństwo dwa modele nie będą bezpośrednio porównywalne ”.
jvh_ch
Mimo że AIC opiera się na prawdopodobieństwie, o ile wiem, został opracowany do celów prognozowania. Jak dokładnie zastosować model mieszany do przewidywania?
AdamO,
@AdamO, czy możesz być bardziej precyzyjny? Dopasowany model mieszany może być wykorzystywany do przewidywania na poziomie populacji (przewidywanie odpowiedzi dla nieokreślonej / nieznanej jednostki poprzez ustawienie trybów warunkowych / BLUP na zero) lub na poziomie indywidualnym (przewidywanie warunków na szacunkach trybów warunkowych / BLUP ). Jeśli możesz być bardziej szczegółowy, może to stanowić dobre nowe pytanie do CV.
Ben Bolker,
Nie było dla mnie jasne, jak zamierzałeś zastosować ten model. Nic w tym problemie nie sugerowało, jakie przewidywania, jeśli w ogóle, były dokonywane lub czy były konieczne, a jeśli tak, to w jakim celu.
AdamO,

Odpowiedzi:

22

Zuur i wsp. Oraz Faraway (z powyższego komentarza @ janhove) mają rację; zastosowanie metod opartych na prawdopodobieństwie (w tym AIC) do porównania dwóch modeli z różnymi stałymi efektami, które są dopasowane przez REML, generalnie prowadzi do nonsensów.

Ben Bolker
źródło
4
Dzięki @janhove, AdamO i Ben Bolker. Uważam również, że ten link od Aarona jest pomocny w odpowiedzi na to pytanie. Mówi: „Prawdopodobieństwo REML zależy od tego, które efekty stałe występują w modelu, a zatem nie są porównywalne, jeśli zmiany efektów stałych się zmienią. REML jest jednak ogólnie uważany za zapewniający lepsze oszacowania efektów losowych, więc zwykle zaleca się dopasowanie najlepszy model wykorzystujący REML do ostatecznego wnioskowania i raportowania ”.
Liczby
11

XX~RnX~XB

X~=XB

BXB

V

|V|1/2|X~V1X~|1/2exp((yX~β~)V1(yX~β~)/2)

β=(X~V1X~)1yX=X~B

|B||V|1/2||XV1X|1/2|exp((yXβ¯)V1(yXβ¯)/2)

β¯=(XV1X)1y|B|

Mamy zatem przykład dwóch różnych parametryzacji tego samego modelu, podając różne wartości prawdopodobieństwa, zakładając, że |B|1

To przykład, dlaczego REML nie powinien być stosowany przy porównywaniu modeli z różnymi stałymi efektami. Jednak REML często lepiej szacuje parametry efektów losowych, dlatego czasami zaleca się stosowanie ML do porównań i REML do szacowania jednego (być może ostatecznego) modelu.

swmo
źródło