Próbuję przeanalizować wpływ roku na zmienną logInd dla konkretnej grupy osób (mam 3 grupy). Najprostszy model:
> fix1 = lm(logInd ~ 0 + Group + Year:Group, data = mydata)
> summary(fix1)
Call:
lm(formula = logInd ~ 0 + Group + Year:Group, data = mydata)
Residuals:
Min 1Q Median 3Q Max
-5.5835 -0.3543 -0.0024 0.3944 4.7294
Coefficients:
Estimate Std. Error t value Pr(>|t|)
Group1 4.6395740 0.0466217 99.515 < 2e-16 ***
Group2 4.8094268 0.0534118 90.044 < 2e-16 ***
Group3 4.5607287 0.0561066 81.287 < 2e-16 ***
Group1:Year -0.0084165 0.0027144 -3.101 0.00195 **
Group2:Year 0.0032369 0.0031098 1.041 0.29802
Group3:Year 0.0006081 0.0032666 0.186 0.85235
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.7926 on 2981 degrees of freedom
Multiple R-squared: 0.9717, Adjusted R-squared: 0.9716
F-statistic: 1.705e+04 on 6 and 2981 DF, p-value: < 2.2e-16
Widzimy, że Grupa 1 znacznie spada, Grupy 2 i 3 rosną, ale nie tak znacząco.
Oczywiście jednostka powinna być efektem losowym, dlatego wprowadzam losowy efekt przechwytywania dla każdej osoby:
> mix1a = lmer(logInd ~ 0 + Group + Year:Group + (1|Individual), data = mydata)
> summary(mix1a)
Linear mixed model fit by REML
Formula: logInd ~ 0 + Group + Year:Group + (1 | Individual)
Data: mydata
AIC BIC logLik deviance REMLdev
4727 4775 -2356 4671 4711
Random effects:
Groups Name Variance Std.Dev.
Individual (Intercept) 0.39357 0.62735
Residual 0.24532 0.49530
Number of obs: 2987, groups: Individual, 103
Fixed effects:
Estimate Std. Error t value
Group1 4.6395740 0.1010868 45.90
Group2 4.8094268 0.1158095 41.53
Group3 4.5607287 0.1216522 37.49
Group1:Year -0.0084165 0.0016963 -4.96
Group2:Year 0.0032369 0.0019433 1.67
Group3:Year 0.0006081 0.0020414 0.30
Correlation of Fixed Effects:
Group1 Group2 Group3 Grp1:Y Grp2:Y
Group2 0.000
Group3 0.000 0.000
Group1:Year -0.252 0.000 0.000
Group2:Year 0.000 -0.252 0.000 0.000
Group3:Year 0.000 0.000 -0.252 0.000 0.000
Miał oczekiwany efekt - SE nachyleń (współczynniki Grupa 1-3: Rok) są teraz niższe, a resztkowe SE jest również niższe.
Poszczególne osoby różnią się także nachyleniem, dlatego wprowadziłem również losowy efekt nachylenia:
> mix1c = lmer(logInd ~ 0 + Group + Year:Group + (1 + Year|Individual), data = mydata)
> summary(mix1c)
Linear mixed model fit by REML
Formula: logInd ~ 0 + Group + Year:Group + (1 + Year | Individual)
Data: mydata
AIC BIC logLik deviance REMLdev
2941 3001 -1461 2885 2921
Random effects:
Groups Name Variance Std.Dev. Corr
Individual (Intercept) 0.1054790 0.324775
Year 0.0017447 0.041769 -0.246
Residual 0.1223920 0.349846
Number of obs: 2987, groups: Individual, 103
Fixed effects:
Estimate Std. Error t value
Group1 4.6395740 0.0541746 85.64
Group2 4.8094268 0.0620648 77.49
Group3 4.5607287 0.0651960 69.95
Group1:Year -0.0084165 0.0065557 -1.28
Group2:Year 0.0032369 0.0075105 0.43
Group3:Year 0.0006081 0.0078894 0.08
Correlation of Fixed Effects:
Group1 Group2 Group3 Grp1:Y Grp2:Y
Group2 0.000
Group3 0.000 0.000
Group1:Year -0.285 0.000 0.000
Group2:Year 0.000 -0.285 0.000 0.000
Group3:Year 0.000 0.000 -0.285 0.000 0.000
Ale teraz, wbrew oczekiwaniom, SE nachyleń (współczynniki Grupa 1-3: Rok) są teraz znacznie wyższe, nawet wyższe niż bez żadnego losowego efektu!
Jak to jest możliwe? Spodziewałbym się, że losowy efekt „zje” niewyjaśnioną zmienność i zwiększy „pewność” oszacowania!
Resztkowa SE zachowuje się jednak zgodnie z oczekiwaniami - jest niższa niż w modelu przechwytywania losowego.
Oto dane w razie potrzeby.
Edytować
Teraz zrozumiałem zdumiewający fakt. Jeśli wykonam regresję liniową dla każdej osoby osobno, a następnie uruchomię ANOVA na powstałych zboczach, otrzymam dokładnie taki sam wynik jak losowy model zbocza! Czy wiesz dlaczego?
indivSlope = c()
for (indiv in 1:103) {
mod1 = lm(logInd ~ Year, data = mydata[mydata$Individual == indiv,])
indivSlope[indiv] = coef(mod1)['Year']
}
indivGroup = unique(mydata[,c("Individual", "Group")])[,"Group"]
anova1 = lm(indivSlope ~ 0 + indivGroup)
summary(anova1)
Call:
lm(formula = indivSlope ~ 0 + indivGroup)
Residuals:
Min 1Q Median 3Q Max
-0.176288 -0.016502 0.004692 0.020316 0.153086
Coefficients:
Estimate Std. Error t value Pr(>|t|)
indivGroup1 -0.0084165 0.0065555 -1.284 0.202
indivGroup2 0.0032369 0.0075103 0.431 0.667
indivGroup3 0.0006081 0.0078892 0.077 0.939
Residual standard error: 0.04248 on 100 degrees of freedom
Multiple R-squared: 0.01807, Adjusted R-squared: -0.01139
F-statistic: 0.6133 on 3 and 100 DF, p-value: 0.6079
Oto dane w razie potrzeby.
źródło
Group
Group
:Year
logInd ~ Year*Group
, tylko współczynniki mają inny kształt, nic więcej. Wszystko zależy od Twojego gustu i kształtu współczynników, które lubisz. Nie ma wykluczenia „Głównego efektu roku” w moim pierwszym modelu, gdy piszesz ...logInd ~ Year*Group
robi dokładnie to samo, wówczasYear
współczynnik nie jest głównym efektem, ale Group1: Year.Odpowiedzi:
Myślę, że problem dotyczy twoich oczekiwań :) Zauważ, że kiedy dodałeś losowy przechwycenie dla każdej osoby, standardowy błąd przechwyceń wzrósł. Ponieważ każda osoba może mieć własne przechwytywanie, średnia grupy jest mniej pewna. To samo stało się z losowym nachyleniem: nie szacuje się już jednego wspólnego (wewnątrz grupy) nachylenia, ale średnią różnych nachyleń.
EDYCJA: Dlaczego lepszy model nie daje dokładniejszej oceny?
Zastanówmy się nad tym na odwrót: dlaczego początkowy model nie docenia standardowego błędu? Zakłada niezależność obserwacji, które nie są niezależne. Drugi model rozluźnia to założenie (w sposób, który wpływa na przechwyty), a trzeci rozluźnia je dalej.
EDYCJA 2: związek z wieloma modelami specyficznymi dla pacjenta
Twoja obserwacja jest znaną właściwością (a gdybyś miał tylko dwa lata, wówczas model efektów losowych byłby równoważny sparowanemu testowi t). Nie sądzę, że dam sobie radę z prawdziwym dowodem, ale być może spisanie dwóch modeli sprawi, że relacja będzie wyraźniejsza. Zignorujmy zmienną grupującą, ponieważ skomplikowałoby to notację. Będę używać liter greckich do efektów losowych i liter łacińskich do efektów stałych.
Model efektów losowych to ( - podmiot, - replikacja w obrębie podmiotu): gdzie i .ja jot
Jeśli dopasujesz osobne modele dla każdego przedmiotu, to gdzie .
[Uwaga: poniższe czynności to po prostu ręczne tworzenie fal:]
Możesz zobaczyć wiele podobieństw między tymi dwoma modelami, gdzie odpowiada i do . Średnia odpowiada , ponieważ efekty losowe wynoszą średnio 0. Nieograniczona korelacja losowego przecięcia i nachylenia prowadzi do tego, że modele można po prostu dopasować osobno. Nie jestem pewien, w jaki sposób założenie single zazębia się ze specyficznym dla tematu , ale zakładam, że odbiera różnicę.zaja a +αja bja b +βja bja b σ σja αja
źródło