Jest to bardziej pytanie koncepcyjne, ale w miarę używania R
będę odwoływał się do pakietów w R
. Jeśli celem jest dopasowanie modelu liniowego do celów przewidywania, a następnie dokonanie prognoz, w których efekty losowe mogą być niedostępne, czy jest jakaś korzyść ze stosowania modelu efektów mieszanych, czy zamiast tego należy zastosować model efektu stałego?
Na przykład, jeśli posiada dane dotyczące masy ciała w porównaniu z wysokością innej informacji, a zbudować stosując następujący wzór lme4
, w którym przedmiot jest elementem z poziomów ( )
mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)
Następnie chcę być w stanie przewidzieć wagę na podstawie modelu na podstawie nowych danych dotyczących wzrostu i wieku. Oczywiście wariancja oryginalnych danych według tematu jest rejestrowana w modelu, ale czy można wykorzystać te informacje w prognozie? Powiedzmy, że mam nowe dane dotyczące wzrostu i wieku i chcę przewidzieć wagę, mogę to zrobić w następujący sposób:
predict(mod1,newdata=newdf) # newdf columns for height, age, subject
To wykorzysta predict.merMod
i mogę albo dołączyć kolumnę (nowych) tematów do newdf
, albo ustawić re.form =~0
. Po pierwsze, nie jest jasne, co robi model z „nowymi” czynnikami podmiotowymi, a po drugie, czy wariancja według podmiotu uchwycona w modelu zostanie po prostu zignorowana (uśredniona) dla prognozy?
W obu przypadkach wydaje mi się, że bardziej odpowiedni może być model liniowy o stałym efekcie. Rzeczywiście, jeśli moje rozumowanie jest poprawne, to model z efektem stałym powinien przewidywać te same wartości, co model mieszany, jeśli efekt losowy nie jest używany w przewidywaniu. Czy tak powinno być? W R
tym nie ma na przykład:
mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)
predict(mod1,newdata=newdf, re.form=~0) # newdf columns for height, age, subject
daje różne wyniki do:
mod2 <- lm(weight ~ height + age, data=df)
predict(mod2,newdata=newdf) # newdf columns for height, age
źródło
Odpowiedzi:
Prosty eksperyment myślowy: Zmierzyłeś wagę i wzrost 5 niemowląt po urodzeniu. I po dwóch latach znów zmierzyłeś go od tych samych dzieci. W międzyczasie mierzyłeś wagę i wzrost córeczki prawie co tydzień, co dało jej 100 par wartości. Jeśli używasz modelu efektów mieszanych, nie ma problemu. Jeśli używasz modelu z efektami stałymi, przykładasz nadmierną wagę do pomiarów dokonanych przez córkę, do momentu, w którym uzyskasz prawie taki sam model dopasowania, jeśli użyjesz tylko danych od niej. Dlatego ważne jest nie tylko wnioskowanie o prawidłowym modelowaniu powtarzanych miar lub struktur niepewności, ale także przewidywanie. Ogólnie rzecz biorąc, nie otrzymujesz takich samych prognoz z modelu efektów mieszanych i modelu efektów stałych (z naruszonymi założeniami).
Nie można przewidzieć dla podmiotów, które nie były częścią oryginalnych danych (treningowych). Znów eksperyment myślowy: nowy przedmiot jest otyły. Skąd model może wiedzieć, że znajduje się w górnej części rozkładu efektów losowych?
Jeśli dobrze cię rozumiem, to tak. Model daje oszacowanie oczekiwanej wartości dla populacji (zauważ, że oszacowanie to nadal zależy od oryginalnych przedmiotów).
źródło
You can't predict for subjects which were not part of the original (training) data
; czy ustalaniere.form=~0
i przewidywanie wartości oczekiwanej populacji nie pozwala mi tego zrobić? To prawda, że model nie wykorzystuje w prognozie żadnych informacji dotyczących konkretnego podmiotu, ale można uczciwie powiedzieć, że oszacowanie z modelu efektu mieszanego będzie nadal dokładniejsze niż w przypadku równoważnego modelu o ustalonym efekcie, w którym zmienność specyficzna dla przedmiotu była zignorowany?re.form=~0
daje prognozy na poziomie populacji, co jest najlepsze, co możesz zrobić dla nowych przedmiotów.glmmLasso
pakietu w R. Autor pakietu, Andreas Groll, stwierdził, że procedura glmmLasso używa tylko ustalonych efektów do przewidywania nowych podmiotów i ustalonych + losowych efektów dla istniejących podmiotów w następnym okresie.