Załóżmy, że mam odpowiedzi dwuwymiarowe ze znaczną korelacją. Próbuję porównać dwa sposoby modelowania tych wyników. Jednym ze sposobów jest modelowanie różnicy między dwoma wynikami: Innym sposobem jest użycie lub ich: ( y i j = β 0 + czas + X ′ β )
gls
gee
Oto przykład foo:
#create foo data frame
require(mvtnorm)
require(reshape)
set.seed(123456)
sigma <- matrix(c(4,2,2,3), ncol=2)
y <- rmvnorm(n=500, mean=c(1,2), sigma=sigma)
cor(y)
x1<-rnorm(500)
x2<-rbinom(500,1,0.4)
df.wide<-data.frame(id=seq(1,500,1),y1=y[,1],y2=y[,2],x1,x2)
df.long<-reshape(df.wide,idvar="id",varying=list(2:3),v.names="y",direction="long")
df.long<-df.long[order(df.long$id),]
df.wide$diff_y<-df.wide$y2-df.wide$y1
#regressions
fit1<-lm(diff_y~x1+x2,data=df.wide)
fit2<-lm(y~time+x1+x2,data=df.long)
fit3<-gls(y~time+x1+x2,data=df.long, correlation = corAR1(form = ~ 1 | time))
Jaka jest podstawowa różnica między fit1
i fit2
? A pomiędzy fit2
i fit3
, biorąc pod uwagę, że są tak blisko wartości i szacunków?
r
regression
model-selection
David Z
źródło
źródło
Holland, Paul & Donald Rubin. 1983. On Lord’s Paradox. In Principles of modern psychological measurement: A festchrift for Frederic M. Lord edited by Wainer, Howard & Samuel Messick pgs:3-25. Lawrence Erlbaum Associates. Hillsdale, NJ.
Odpowiedzi:
Po pierwsze przedstawię czwarty model dyskusji w mojej odpowiedzi:
Część 0
Różnicę między fit1 a fit1,5 najlepiej podsumować jako różnicę między ograniczoną różnicą a optymalną różnicą.
Użyję prostszego przykładu, aby to wyjaśnić niż ten podany powyżej. Zacznijmy od fit1.5. Prostsza wersja modelu to Oczywiście, gdy otrzymamy oszacowanie OLS, znajdzie on „optymalny” wybór dla . I choć wydaje się to dziwne, pisanie jest takie, możemy przepisać formułę jako Możemy to jako „optymalną” różnicę między dwiema zmiennymi .b 2 y 2 - b 2 · y 1 = b 0 + b 1 · x y
Teraz, jeśli zdecydujemy się na ograniczenie , wówczas formuła / model stanie się co jest tylko (ograniczoną) różnicą.b2=1
Zauważ, że w powyższej demonstracji, jeśli pozwolisz być zmienną dychotomiczną, a będzie testem wstępnym, a parowaniem wyniku po teście, to model ograniczonej różnicy byłby tylko niezależnymi próbkami - test na zwiększenie wyników , podczas gdy optymalnym modelem różnic byłby test ANCOVA z wynikami przedtestowymi stosowanymi jako zmienne towarzyszące.x y1 y2 t
Część 1
Model fit2 najlepiej przemyśleć w podobny sposób, jak w przypadku podejścia różnicowego zastosowanego powyżej. Chociaż jest to nadmierne uproszczenie (ponieważ celowo terminy błędów), model można przedstawić jako gdzie dla wartości dla wartości . Oto uproszczenie ... Napisano w inny sposób, . Podczas gdy model fit1.5 miał wartość jako wartość optymalną dla analizy OLS, tutaj
Część 2
Więc jaka jest różnica między modelami fit2 i fit3 ... właściwie bardzo niewiele. Model fit3 uwzględnia korelację pod względem błędów, ale to tylko zmienia proces estymacji, a zatem różnice między dwoma wyjściami modelu będą minimalne (poza faktem, że fit3 szacuje czynnik autoregresyjny).
Część 2.5
I do tej dyskusji dołączę jeszcze jeden model
Ten model z mieszanymi efektami robi nieco inną wersję podejścia autoregresyjnego. Gdybyśmy mieli uwzględnić współczynnik czasu w efektach losowych, byłoby to porównywalne do obliczenia różnicy między dla każdego pacjenta. (Ale to nie zadziała ... i model nie będzie działać.)y
źródło