Jak interpretować „korelacje ustalonych efektów” w mojej produkcji glittera?

26

Mam następujące dane wyjściowe:

Generalized linear mixed model fit by the Laplace approximation 
Formula: aph.remain ~ sMFS2 +sAG2 +sSHDI2 +sbare +season +crop +(1|landscape) 

 AIC   BIC    logLik deviance
 4062  4093  -2022   4044

Random effects:
Groups    Name        Variance Std.Dev.
landscape (Intercept) 0.82453  0.90804 
Number of obs: 239, groups: landscape, 45

Fixed effects:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  2.65120    0.14051  18.868   <2e-16     
sMFS2        0.26922    0.17594   1.530   0.1260    
sAG2         0.09268    0.14529   0.638   0.5235    
sSHDI2       0.28345    0.17177   1.650   0.0989  
sbare        0.41388    0.02976  13.907   <2e-16 
seasonlate  -0.50165    0.02729 -18.384   <2e-16 
cropforage   0.79000    0.06724  11.748   <2e-16 
cropsoy      0.76507    0.04920  15.551   <2e-16 

Correlation of Fixed Effects:
           (Intr) sMFS2  sAG2   sSHDI2 sbare  sesnlt crpfrg
sMFS2      -0.016                                          
sAG2        0.006 -0.342                                   
sSHDI2     -0.025  0.588 -0.169                            
sbare      -0.113 -0.002  0.010  0.004                     
seasonlate -0.034  0.005 -0.004  0.001 -0.283              
cropforage -0.161 -0.005  0.012 -0.004  0.791 -0.231       
cropsoy    -0.175 -0.022  0.013  0.013  0.404 -0.164  0.557

Wszystkie moje ciągłe zmienne (oznaczone jako małe sprzed nazwą zmiennej) są znormalizowane (z-score). seasonjest zmienną jakościową z 2 poziomami (wczesną i późną) i cropjest zmienną jakościową z 3 poziomami (kukurydza, pasza i soja).

Ta korelacja macierzy efektów stałych jest dla mnie bardzo myląca, ponieważ wszystkie korelacje mają odwrotny znak, jaki mają, gdy patrzę na proste regresje par zmiennych. tj. korelacja macierzy efektów stałych sugeruje silną korelację dodatnią między, cropforagea sbaregdy w rzeczywistości istnieje bardzo silna korelacja NEGATYWNA między tymi zmiennymi - rośliny pastewne miały zwykle znacznie mniej gołej ziemi w porównaniu z uprawami kukurydzy i soi. Pary zmiennych ciągłych mają ten sam problem, korelacja macierzy efektów stałych mówi, że wszystko jest przeciwieństwem tego, czym powinno być ... Czy może to być spowodowane złożonością modelu (a nie prostą regresją)? Czy to może mieć coś wspólnego z faktem, że zmienne są znormalizowane?

Dzięki.

Susie
źródło

Odpowiedzi:

27

Wynik „korelacji efektów stałych” nie ma intuicyjnego znaczenia, które przypisuje mu większość. W szczególności nie chodzi o korelację zmiennych (jak zauważa OP). W rzeczywistości chodzi o oczekiwaną korelację współczynników regresji. Chociaż może to dotyczyć wielokoliniowości, niekoniecznie. W tym przypadku mówi ci to, że jeśli powtórzysz eksperyment i tak się stanie, że współczynnik dla cropforagezmniejszy się, prawdopodobne jest, że tak samo będzie sbare.

Częściowo jego książka „Analiza danych językowych: praktyczne wprowadzenie do statystyki za pomocą R” dotycząca lme4 Baayen tłumi tę część danych wyjściowych i deklaruje, że jest przydatna tylko w szczególnych przypadkach. Oto komunikat listserv, w którym sam Bates opisuje, jak interpretować tę część wyniku:

Jest to przybliżona korelacja estymatora efektów stałych. (Zawieram słowo „przybliżone”, ponieważ powinienem, ale w tym przypadku przybliżenie jest bardzo dobre.) Nie jestem pewien, jak wyjaśnić to lepiej. Załóżmy, że pobrano próbkę MCMC z parametrów w modelu, a następnie można oczekiwać, że próbka parametrów o ustalonych efektach wyświetli strukturę korelacji taką jak ta macierz.

russellpierce
źródło
3
Przepraszam, to prawdopodobnie będzie głupie pytanie, ale dlaczego ważne jest, aby wziąć pod uwagę tę korelację? Mam na myśli, w jakich sytuacjach należy wziąć pod uwagę ten wynik?
mtao
1
@Teresa To zależy od tego, do czego go używasz. Jeśli zależy ci na interpretacji, to mówi ci o tym, jak mylące są dwa źródła efektu. Jeśli zależy Ci na predykcji, dowiesz się trochę o tym, jak mogą wyglądać inne modele predykcyjne i podpowiesz, jak model może się zmienić, jeśli upuścisz predyktory.
russellpierce
1
Wyobraź sobie, że mam w tym wyjściu dwie zmienne z korelacją na przykład 0,90. Jeśli chodzi o interpretację, zakładam, że powinienem porzucić jedną z nich, ponieważ są „mylące” i wydają się mówić tę samą informację. Jeśli chodzi o przewidywanie, jeśli upuszczę jeden z nich, inne modele nie powinny się tak bardzo zmieniać, ponieważ są skorelowane, prawda? A może źle to interpretuję?
mtao,
3
Wiesz, myślę, że odzwierciedlasz to, co powiedziałem poprawnie; ale po refleksji nie jestem w 100% pewien, że mam rację. Najlepszym rozwiązaniem może być otwarcie nowego pytania - dzięki temu uzyskasz więcej uwagi na swoje pytanie i zwiększysz prawdopodobieństwo otrzymania poprawnej odpowiedzi.
russellpierce
1
@russellpierce, dziękuję za tę odpowiedź. Jednak jedno pytanie nauczyłem się, że wielokoliniowość występuje, gdy predyktory korelują ze sobą. Ale w swojej odpowiedzi mówisz, że korelacja współczynników regresji (nie predyktorów) może przemawiać do wielokoliniowości. Dlaczego nie skorelować samych predyktorów zamiast szacowanych współczynników?
locus
0

Jeśli twoje ujemne i dodatnie korelacje mają tę samą wartość i różni się tylko ich znak, wpisujesz zmienną błędnie. Ale nie sądzę, że tak jest w przypadku ciebie, ponieważ wydajesz się już dość zaawansowany w statystykach.

Występująca niespójność może być i jest prawdopodobnie spowodowana wielokoliniowością. Oznacza to, że niektóre niezależne zmienne mają wspólne nakładające się efekty lub innymi słowy są skorelowane . na przykład modelowanie do zmiennych „tempo wzrostu” i „rozmiar guza” może powodować wielokoliniowość, ponieważ jest to możliwe i prawdopodobne, że większe guzy mają wyższe wskaźniki wzrostu (zanim zostaną wykryte) per se. To może mylić model. A jeśli twój model ma kilka niezależnych zmiennych, które są ze sobą skorelowane, interpretacja wyników może czasem stać się dość trudna. Czasami prowadzi to do zupełnie dziwnych współczynników, nawet do takich rozmiarów, że odwraca się znak niektórych korelacji.

Najpierw powinieneś wykryć źródła wielokoliniowości i zająć się nimi, a następnie ponownie przeprowadzić analizę.

Vic
źródło
1
-1; zwodniczy. OP nie wpisał niepoprawnie swoich zmiennych, a wielokoliniowość może nie stanowić problemu. Korelacja między surowymi ustalonymi efektami może przemawiać do tego punktu, ale paradoks Simpsona może pozwolić, aby takie podejście poprowadziło cię w złym kierunku.
russellpierce
1
Dlaczego „wprowadza w błąd”? Która część wprowadzała w błąd? Mówiłem bardzo wyraźnie i unikałem wyciągania jasnych wniosków. To, co powiedziałem, jest rzeczywiście jednym ze znaków wielokoliniowości i mówi nam, że powinniśmy również sprawdzić VIF. Ale nie rozumiem, skąd wiesz lub jesteś pewien, że „OP nie wprowadził niepoprawnie swoich zmiennych, a wielokoliniowość może nie stanowić problemu”.
Vic
1
Poza tym nie przeczytałeś nawet całkowicie mojego postu (przegłosowałeś go i nazwałeś go mylącym). Jeśli tak, to widziałeś, że zasugerowałem, że OP powinien sprawdzić VIF (jako oficjalne wskaźniki dla multiC), aby upewnić się, czy te wysokie korelacje naprawdę wskazują na MC, czy nie? ale i tak jestem otwarty na naukę, o ile jest on wolny od arogancji i osobistych ataków.
Vic
1
@Vic: Dopiero teraz widziałem twoje komentarze. Nie chciałem, żebyście postrzegali moją odpowiedź jako osobisty atak. Byłem zdania, że ​​wprowadzało to w błąd i podałem powyższą odpowiedź, która moim zdaniem jest poprawna. Przeczytałem wtedy twój post w całości. Nie wiem, czy zagłębiłem się w komentarze, czy nie. Stoję przy moim przegłosowaniu.
russellpierce
1
... ale dopuszczam, że mogę się mylić w tym wyroku. Wydaje się jednak, że lepiej jest wyjaśnić, dlaczego głosowałem niż głosować, niż tylko głosować.
russellpierce
0

Pomocne może okazać się wykazanie, że te korelacje między stałymi efektami są uzyskiwane przez konwersję „vcov” modelu na macierz korelacji. Jeśli fitto twój dopasowany model Lme4, to

vc <- vcov(fit)

# diagonal matrix of standard deviations associated with vcov
S <- sqrt(diag(diag(vc), nrow(vc), nrow(vc)))

# convert vc to a correlation matrix
solve(S) %*% vc %*% solve(S)

a korelacje między stałymi efektami są zapisami o przekątnej.

Ed Merkle
źródło