Współczynnik korelacji międzyklasowej w modelu mieszanym z losowymi nachyleniami

10

Mam następujący model m_plotwyposażony w lme4::lmerskrzyżowane efekty losowe dla uczestników ( lfdn) i przedmiotów ( content):

Random effects:
 Groups   Name             Variance Std.Dev. Corr                                     
 lfdn     (Intercept)      172.173  13.121                                            
          role1             62.351   7.896    0.03                                    
          inference1        24.640   4.964    0.08 -0.30                              
          inference2        52.366   7.236   -0.05  0.17 -0.83                        
          inference3        21.295   4.615   -0.03  0.22  0.86 -0.77                  
 content  (Intercept)       23.872   4.886                                            
          role1              2.497   1.580   -1.00                                    
          inference1        18.929   4.351    0.52 -0.52                              
          inference2        14.716   3.836   -0.16  0.16 -0.08                        
          inference3        17.782   4.217   -0.17  0.17  0.25 -0.79                  
          role1:inference1   9.041   3.007    0.10 -0.10 -0.10 -0.21  0.16            
          role1:inference2   5.968   2.443   -0.60  0.60 -0.11  0.78 -0.48 -0.50      
          role1:inference3   4.420   2.102    0.30 -0.30  0.05 -0.97  0.71  0.37 -0.90
 Residual                  553.987  23.537                                            
Number of obs: 3480, groups:  lfdn, 435 content, 20

Chcę poznać współczynniki korelacji międzyklasowej (ICC) dla uczestników i przedmiotów. Dzięki tej wspaniałej odpowiedzi w zasadzie wiem, jak zdobyć ICC dla mojego modelu. Nie jestem jednak pewien, czy uwzględnić losowe stoki, czy nie:

vars <- lapply(summary(m_plot)$varcor, diag)
resid_var <- attr(summary(m_plot)$varcor, "sc")^2
total_var <- sum(sapply(vars, sum), resid_var)

# with random slopes
sapply(vars, sum)/total_var
##       lfdn    content 
## 0.33822396 0.09880349

# only random intercepts:
sapply(vars, function(x) x[1]) / total_var
##   lfdn.(Intercept) content.(Intercept) 
##         0.17496587          0.02425948 

Jaka jest odpowiednia miara korelacji między dwiema odpowiedziami tego samego uczestnika odpowiadającymi tej samej pozycji?

Henrik
źródło
1
Merlo i in. 2005 „Krótki poradnik pojęciowy na temat wielopoziomowej analizy w epidemiologii społecznej: badanie zjawisk kontekstowych w różnych grupach ludzi” może być przydatnym odniesieniem.
N Brouwer
@Henrik, czy kiedykolwiek znalazłeś odpowiedź na to pytanie? Jestem również zainteresowany.
Patrick S. Forscher,
2
@ PatrickS.Forscher O ile mi wiadomo, ICC nie ma sensu z przypadkowymi stokami. Nauczyłem się tego od Jake'a Westfall.
Henrik,
Masz link do czytania przez przypadek?
Patrick S. Forscher,
1
@ PatrickS.Forscher Jak widać, Jake Westfall udzielił teraz doskonałej odpowiedzi.
Henrik,

Odpowiedzi:

8

Zasadniczo nie ma jednej liczby lub oszacowania, które mogłyby podsumować stopień grupowania w modelu losowych nachyleń.

Korelację międzyklasową (ICC) można zapisać tylko jako prosty odsetek wariancji w modelach zawierających wyłącznie losowe przechwyty. Aby zobaczyć dlaczego, szkic wyprowadzenia wyrażenia ICC można znaleźć tutaj .

Gdy rzucasz losowe zbocza do równania modelu, wykonanie tych samych kroków prowadzi do wyrażenia ICC na stronie 5 tego dokumentu . Jak widać, to skomplikowane wyrażenie jest funkcją predyktora X. Aby bardziej intuicyjnie zobaczyć, dlaczego var (Y) zależy od X, gdy występują losowe nachylenia, sprawdź stronę 30 tych slajdów („Dlaczego wariancja zależy od x ? ”) .

Ponieważ ICC jest funkcją predyktorów (wartości x), można ją obliczyć tylko dla określonych zestawów wartości x. Być może mógłbyś spróbować czegoś takiego jak zgłoszenie ICC do łącznej średniej wartości x, ale szacunek ten będzie wyraźnie niedokładny w przypadku większości obserwacji.

Wszystko, co powiedziałem, nadal odnosi się tylko do przypadków, w których występuje jeden losowy czynnik. Przy wielu losowych czynnikach staje się to jeszcze bardziej skomplikowane. Na przykład w projekcie obejmującym wiele witryn, w którym uczestnicy w każdej witrynie reagują na próbkę bodźców (tj. 3 czynniki losowe: witryna, uczestnik, bodziec), możemy zapytać o wiele różnych ICC: Jaka jest oczekiwana korelacja między dwiema odpowiedziami w tym samym miejscu, na ten sam bodziec od różnych uczestników? Co powiesz na różne witryny, ten sam bodziec i różnych uczestników? I tak dalej. @rvl wspomina o tych komplikacjach w odpowiedzi, z którą powiązany był PO.

Jak widać, jedynym przypadkiem, w którym możemy podsumować stopień grupowania za pomocą pojedynczej wartości, jest przypadek z pojedynczym losowym czynnikiem tylko losowe przechwytywanie. Ponieważ jest to tak niewielki odsetek rzeczywistych przypadków, ICC nie są tak przydatne przez większość czasu. Tak więc moim ogólnym zaleceniem jest, aby nawet się o nie nie martwić. Zamiast tego zalecam po prostu zgłaszanie składników wariancji (najlepiej w postaci odchylenia standardowego).

Jake Westfall
źródło