Nauczyłem się w statystyce elementarnej, że przy ogólnym modelu liniowym, aby wnioski były ważne, obserwacje muszą być niezależne. Kiedy występuje klastrowanie, niezależność może już nie prowadzić, prowadząc do nieprawidłowego wnioskowania, chyba że zostanie to uwzględnione. Jednym ze sposobów uwzględnienia takiego grupowania jest użycie modeli mieszanych. Chciałbym znaleźć przykładowy zestaw danych, symulowany lub nie, który wyraźnie to pokazuje. Próbowałem użyć jednego z przykładowych zestawów danych na stronie UCLA do analizy danych klastrowych
> require(foreign)
> require(lme4)
> dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")
> m1 <- lm(api00~growth+emer+yr_rnd, data=dt)
> summary(m1)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 740.3981 11.5522 64.092 <2e-16 ***
growth -0.1027 0.2112 -0.486 0.6271
emer -5.4449 0.5395 -10.092 <2e-16 ***
yr_rnd -51.0757 19.9136 -2.565 0.0108 *
> m2 <- lmer(api00~growth+emer+yr_rnd+(1|dnum), data=dt)
> summary(m2)
Fixed effects:
Estimate Std. Error t value
(Intercept) 748.21841 12.00168 62.34
growth -0.09791 0.20285 -0.48
emer -5.64135 0.56470 -9.99
yr_rnd -39.62702 18.53256 -2.14
Jeśli czegoś mi nie brakuje, wyniki są na tyle podobne, że nie sądzę, że dane wyjściowe lm()
są nieprawidłowe. Przyjrzałem się innym przykładom (np. 5.2 z Bristol University Centre for Multilevel Modeling ) i odkryłem, że standardowe błędy również nie są strasznie różne (nie interesują mnie same losowe efekty z modelu mieszanego, ale warto zauważyć, że ICC z wyników modelu mieszanego wynosi 0,42).
Tak więc moje pytania to: 1) w jakich warunkach standardowe błędy będą się znacznie różnić w przypadku klastrowania oraz 2) czy ktoś może podać przykład takiego zestawu danych (symulowanego lub nie).
źródło
Odpowiedzi:
Po pierwsze, masz rację, ten zestaw danych może nie jest najlepszy do zrozumienia modelu mieszanego. Ale najpierw spójrzmy dlaczego
Widzisz, że masz 310 obserwacji i 187 grup, z których 132 mają tylko jedną obserwację. Nie oznacza to, że nie powinniśmy używać modelowania wielopoziomowego, ale po prostu, że nie uzyskamy bardzo różnych wyników, jak powiedziałeś.
Motywacja do modelowania wielopoziomowego
Motywacja do korzystania z modelowania wielopoziomowego zaczyna się od samego projektu, a nie tylko od wyników przeprowadzonej analizy. Oczywiście najczęstszym przykładem jest wzięcie wielu obserwacji od osób, ale aby uczynić bardziej ekstremalnymi rzeczy, aby łatwiej zrozumieć sytuację, pomyśl pytając osoby z różnych krajów na całym świecie o ich dochody. Najlepszymi przykładami są te, które mają wiele niejednorodności, ponieważ przyjmowanie klastrów, które są jednorodne w wyniku badania, oczywiście nie zrobi dużej różnicy.
Przykład
Symulujmy więc niektóre dane, aby wszystko było bardziej przejrzyste, symulacja działa lepiej, ponieważ w przypadku rzeczywistych danych nie jest to takie oczywiste. Wyobraź sobie, że bierzesz krajów i pytasz osób z każdego kraju o ich dochód i coś innego , co ma pozytywny wpływ na dochód ze współczynnikiem10010 100 0,5
y
x
Masz więc model liniowy
i wnioskujesz, że
x
nie ma to wpływu statystycznego nay
. Zobacz, jak duży jest błąd standardowy. Ale uruchamianie modelu przechwytywania losowegowidać, jak bardzo zmienił się błąd standardowy oszacowania. Patrząc na część dotyczącą efektu losowego, widzimy, jak zmienność została rozłożona - większość zmienności w dochodach występuje między krajami, a wśród krajów ludzie mają podobne dochody. Krótko mówiąc, to, co się tutaj wydarzyło, polega na tym, że nie uwzględnienie efektu grupowania
x
oznacza „zgubienie się” (jeśli możemy użyć tego rodzaju terminu), ale rozkładając zmienność, znajdziesz to, co powinieneś uzyskać.źródło