Dlaczego miałbyś przewidywać na podstawie modelu efektu mieszanego bez uwzględnienia efektów losowych dla prognozy?

10

Jest to bardziej pytanie koncepcyjne, ale w miarę używania Rbędę odwoływał się do pakietów w R. Jeśli celem jest dopasowanie modelu liniowego do celów przewidywania, a następnie dokonanie prognoz, w których efekty losowe mogą być niedostępne, czy jest jakaś korzyść ze stosowania modelu efektów mieszanych, czy zamiast tego należy zastosować model efektu stałego?

Na przykład, jeśli posiada dane dotyczące masy ciała w porównaniu z wysokością innej informacji, a zbudować stosując następujący wzór lme4, w którym przedmiot jest elementem z poziomów ( )nn=no.samples

mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)

Następnie chcę być w stanie przewidzieć wagę na podstawie modelu na podstawie nowych danych dotyczących wzrostu i wieku. Oczywiście wariancja oryginalnych danych według tematu jest rejestrowana w modelu, ale czy można wykorzystać te informacje w prognozie? Powiedzmy, że mam nowe dane dotyczące wzrostu i wieku i chcę przewidzieć wagę, mogę to zrobić w następujący sposób:

predict(mod1,newdata=newdf) # newdf columns for height, age, subject

To wykorzysta predict.merModi mogę albo dołączyć kolumnę (nowych) tematów do newdf, albo ustawić re.form =~0. Po pierwsze, nie jest jasne, co robi model z „nowymi” czynnikami podmiotowymi, a po drugie, czy wariancja według podmiotu uchwycona w modelu zostanie po prostu zignorowana (uśredniona) dla prognozy?

W obu przypadkach wydaje mi się, że bardziej odpowiedni może być model liniowy o stałym efekcie. Rzeczywiście, jeśli moje rozumowanie jest poprawne, to model z efektem stałym powinien przewidywać te same wartości, co model mieszany, jeśli efekt losowy nie jest używany w przewidywaniu. Czy tak powinno być? W Rtym nie ma na przykład:

mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)

predict(mod1,newdata=newdf, re.form=~0) # newdf columns for height, age, subject

daje różne wyniki do:

mod2 <- lm(weight ~ height + age, data=df)

predict(mod2,newdata=newdf) # newdf columns for height, age


tribalsoul
źródło
1
Może być tak, że chcesz przewidzieć dla nowej grupy, która nie została uwzględniona w oszacowaniu
kjetil b halvorsen
Tak, ale w takim przypadku po co zawracać sobie głowę modelem z efektem mieszanym? Co daje ci to, że nie ma modelu z efektem stałym, jeśli zignorujesz losowe efekty w prognozie?
tribalsoul
1
Cóż, może dać lepsze estymatory, ponieważ masz lepszy (bardziej poprawny) model struktury błędów
kjetil b halvorsen

Odpowiedzi:

5

Prosty eksperyment myślowy: Zmierzyłeś wagę i wzrost 5 niemowląt po urodzeniu. I po dwóch latach znów zmierzyłeś go od tych samych dzieci. W międzyczasie mierzyłeś wagę i wzrost córeczki prawie co tydzień, co dało jej 100 par wartości. Jeśli używasz modelu efektów mieszanych, nie ma problemu. Jeśli używasz modelu z efektami stałymi, przykładasz nadmierną wagę do pomiarów dokonanych przez córkę, do momentu, w którym uzyskasz prawie taki sam model dopasowania, jeśli użyjesz tylko danych od niej. Dlatego ważne jest nie tylko wnioskowanie o prawidłowym modelowaniu powtarzanych miar lub struktur niepewności, ale także przewidywanie. Ogólnie rzecz biorąc, nie otrzymujesz takich samych prognoz z modelu efektów mieszanych i modelu efektów stałych (z naruszonymi założeniami).

i mogę albo dołączyć kolumnę (nowych) tematów do newdf

Nie można przewidzieć dla podmiotów, które nie były częścią oryginalnych danych (treningowych). Znów eksperyment myślowy: nowy przedmiot jest otyły. Skąd model może wiedzieć, że znajduje się w górnej części rozkładu efektów losowych?

czy wariancja według tematu zarejestrowana w modelu zostanie po prostu zignorowana (uśredniona) dla prognozy

Jeśli dobrze cię rozumiem, to tak. Model daje oszacowanie oczekiwanej wartości dla populacji (zauważ, że oszacowanie to nadal zależy od oryginalnych przedmiotów).

Roland
źródło
1
Dziękuję za jasne wyjaśnienie i przykład, to wszystko ma sens. Jednak tam, gdzie podajesz You can't predict for subjects which were not part of the original (training) data; czy ustalanie re.form=~0i przewidywanie wartości oczekiwanej populacji nie pozwala mi tego zrobić? To prawda, że ​​model nie wykorzystuje w prognozie żadnych informacji dotyczących konkretnego podmiotu, ale można uczciwie powiedzieć, że oszacowanie z modelu efektu mieszanego będzie nadal dokładniejsze niż w przypadku równoważnego modelu o ustalonym efekcie, w którym zmienność specyficzna dla przedmiotu była zignorowany?
tribalsoul
1
Stały model nie ma zastosowania, ponieważ jego założenia zostały naruszone. Musisz użyć modelu, który zawiera strukturę zależności. re.form=~0daje prognozy na poziomie populacji, co jest najlepsze, co możesz zrobić dla nowych przedmiotów.
Roland
Miałem to samo pytanie, kiedy korzystałem z glmmLasso pakietu w R. Autor pakietu, Andreas Groll, stwierdził, że procedura glmmLasso używa tylko ustalonych efektów do przewidywania nowych podmiotów i ustalonych + losowych efektów dla istniejących podmiotów w następnym okresie.
RobertF