Obliczanie w modelach mieszanych przy użyciu metody R2glmm Nakagawy i Schielzetha (2013)

13

Czytałem o obliczaniu wartości w modelach mieszanych i po przeczytaniu FAQ R-sig, innych postów na tym forum (zamieściłem kilka, ale nie mam wystarczającej reputacji) i kilku innych odniesień, rozumiem, że używając Wartości w kontekście modeli mieszanych są skomplikowane.R 2R2R2

Ostatnio jednak natknąłem się na te dwa artykuły poniżej. Chociaż te metody wyglądają obiecująco (dla mnie), nie jestem statystykiem i jako taki zastanawiałem się, czy ktokolwiek inny miałby jakiś wgląd w proponowane metody i ich porównanie z innymi zaproponowanymi metodami.

Nakagawa, Shinichi i Holger Schielzeth. „Ogólna i prosta metoda uzyskiwania R2 z uogólnionych liniowych modeli efektów mieszanych.” Methods in Ecology and Evolution 4.2 (2013): 133-142.

Johnson, Paul CD. „Rozszerzenie R2GLMM firmy Nakagawa i Schielzeth na losowe modele stoków”. Methods in Ecology and Evolution (2014).

Metoda is może być również zaimplementowana przy użyciu funkcji r.squaredGLMM w pakiecie MuMIn, która daje następujący opis metody.

W przypadku modeli z efektami mieszanymi można podzielić na dwa typy. Marginalna reprezentuje wariancję wyjaśnioną przez ustalone czynniki i jest zdefiniowana jako: Warunkowe jest interpretowane jako wariancja wyjaśniona zarówno przez stałe, jak i losowe czynniki (tj. cały model) i jest obliczana zgodnie z równaniem: gdzie to wariancja składników stałego efektu, a to suma wszystkich składników wariancji (grupa, indywidualna itp.),R 2R2R2

RGLMM(m)2=σf2σf2+(σl2)+σe2+σd2
R2
RGLMM(c)2=(σf2+(σl2))(σf2+(σl2)+σe2+σd2
σf2(σl2)σl2jest wariancją wynikającą z dyspersji addytywnej, a jest wariancją specyficzną dla rozkładu. σd2

W mojej analizie patrzę na dane podłużne i interesuje mnie przede wszystkim wariancja wyjaśniona stałymi efektami w modelu

library(MuMIn) 
library(lme4)

fm1 <- lmer(zglobcog ~ age_c + gender_R2 + ibphdtdep + iyeareducc + apoegeno + age_c*apoegeno + (age_c | pathid), data = dat, REML = FALSE, control = lmerControl(optimizer = "Nelder_Mead"))

# Jarret Byrnes (correlation between the fitted and the observed values)
r2.corr.mer <- function(m) {
   lmfit <-  lm(model.response(model.frame(m)) ~ fitted(m))
   summary(lmfit)$r.squared
}

r2.corr.mer(fm1)
[1] 0.8857005

# Xu 2003
1-var(residuals(fm1))/(var(model.response(model.frame(fm1))))
[1] 0.8783479

# Nakagawa & Schielzeth's (2013)
r.squaredGLMM(fm1)
      R2m       R2c 
0.1778225 0.8099395 
Andrews
źródło
Zredagowałem twój post, aby użyć formatowania Mathjax. Proszę dokładnie sprawdzić, czy przypadkowo nie wprowadziłem żadnych błędów.
Sycorax mówi Przywróć Monikę
O ile rozumiem, w twoim pytaniu brakuje prawdziwego pytania. Czy możesz wyjaśnić, czego chcesz? Rekomendacja, z czego korzystać?
Henrik
Cześć @Henrik, byłem zainteresowany rekomendacją tego, czego użyć, tak, ale także szerzej, jak różne metody się ze sobą porównują i jakie są różnice.
Andrews,
Uważam, że oryginalne i powyższe równania są błędne. Nie jest to spowodowane zmianami @ user777. Dwa warunki po prawej stronie powinny być mianownikiem. Zobacz to .
Cyrille
Ten błąd był prawdopodobnie spowodowany brakiem nawiasów zamykających w dokumentacji pakietu MuMIn .
Cyrille

Odpowiedzi:

11

Odpowiadam, wklejając odpowiedź Douglasa Batesa na liście mailingowej R-Sig-ME, 17 grudnia 2014 r., Na pytanie, jak obliczyć statystyki dla uogólnionych liniowych modeli mieszanych, które moim zdaniem należy przeczytać dla wszystkich zainteresowanych takie coś. Bates jest oryginalnym autorem pakietu dla R i współautorem , a także współautorem znanej książki o modelach mieszanych , a CV skorzysta z tekstu w odpowiedzi, a nie tylko linku do to.R2lme4nlme

Muszę przyznać, że trochę się trzęsę, kiedy ludzie mówią o „R2 dla GLMM”. R2 dla modelu liniowego jest dobrze zdefiniowany i ma wiele pożądanych właściwości. W przypadku innych modeli można zdefiniować różne wielkości, które odzwierciedlają niektóre, ale nie wszystkie z tych właściwości. Ale to nie oblicza R2 w sensie uzyskania liczby mającej wszystkie właściwości, które R2 dla modeli liniowych. Zwykle istnieje kilka różnych sposobów określania takiej ilości. Zwłaszcza w przypadku GLM i GLMM, zanim będzie można zdefiniować „wyjaśniono część wariancji wariancji odpowiedzi”, należy najpierw zdefiniować, co rozumie się przez „wariancję odpowiedzi”.

Pomyłka na temat tego, co stanowi R2 lub stopnie swobody dowolnej innej wielkości związanej z modelami liniowymi w odniesieniu do innych modeli, wynika z pomylenia formuły z pojęciem. Chociaż formuły pochodzą z modeli, wyprowadzanie często obejmuje dość skomplikowaną matematykę. Aby uniknąć potencjalnie mylącego wyprowadzenia i po prostu „przejść do sedna”, łatwiej jest przedstawić formuły. Ale formuła nie jest pojęciem. Uogólnienie formuły nie jest równoważne z uogólnieniem pojęcia. Te formuły prawie nigdy nie są stosowane w praktyce, szczególnie w przypadku uogólnionych modeli liniowych, analizy wariancji i efektów losowych. Mam „meta-twierdzenie”, że jedyną wielkością faktycznie obliczoną zgodnie ze wzorami podanymi w tekstach wprowadzających jest średnia z próby.

Może się wydawać, że jestem zrzędliwym starcem w tej sprawie i być może jestem, ale istnieje niebezpieczeństwo, że ludzie spodziewają się, że ilość „podobna do R2” będzie miała wszystkie właściwości R2 dla modeli liniowych. Nie może Nie ma możliwości uogólnienia wszystkich właściwości na znacznie bardziej skomplikowany model, taki jak GLMM.

Byłem kiedyś w komisji oceniającej propozycję pracy doktorskiej. kandydowanie. Propozycja polegała na zbadaniu, moim zdaniem, 9 różnych formuł, które można by uznać za sposoby obliczania R2 dla modelu regresji nieliniowej, aby zdecydować, który jest „najlepszy”. Oczywiście można tego dokonać poprzez badanie symulacyjne z tylko kilkoma różnymi modelami i tylko kilkoma różnymi zestawami wartości parametrów dla każdego z nich. Moja sugestia, że ​​było to całkowicie bezsensowne ćwiczenie, nie została ciepło przyjęta.

Robert Long
źródło
10

Po przejrzeniu literatury natknąłem się na następujący artykuł, który porównuje kilka różnych metod obliczania wartości dla modeli mieszanych, gdzie metody (MVP) są równoważne metodzie zaproponowanej przez Nakagawę i Schielzeth.R2R2

  • Lahuis, D i in. (2014) Wyjaśnił miary wariancji dla modeli wielopoziomowych. Metody badań organizacyjnych.

wprowadź opis zdjęcia tutaj

Ogólnie rzecz biorąc, większość miar (Formula, Formula, (OLS) i (MVP)) wykazywały akceptowalne poziomy stronniczości, spójności i wydajności we wszystkich warunkach i modelach. Ponadto różnica średnich wartości odchylenia dla tych miar była niewielka. Formula i Formula były najmniej stronnicze w modelach przechwytywania losowego, a Formula i (MVP) były najmniej stronnicze w modelach losowego nachylenia. Pod względem wydajności Formula i (MVP) miały najniższe wartości odchylenia standardowego w modelu przechwytywania losowego. (MVP) i (OLS) miały najniższe odchylenia standardowe w modelu o losowym nachyleniu. Zasadniczo Formula nie była wydajnym estymatorem.R2R2R2R2R2R2

Andrews
źródło