Kiedy stosować uogólnione równania szacunkowe vs. modele efektów mieszanych?

63

Od dłuższego czasu całkiem chętnie używam modeli efektów mieszanych z danymi podłużnymi. Chciałbym dopasować relacje AR w mniejszym (myślę, że mam rację, że nie mogę tego zrobić?), Ale nie sądzę, że jest to niezwykle ważne, więc nie martwię się zbytnio.

Właśnie natknąłem się na ogólne równania szacunkowe (GEE) i wydają się one oferować znacznie większą elastyczność niż modele ME.

Czy istnieje ryzyko, że zadamy zbyt ogólne pytanie, czy jest jakaś rada, która z nich jest lepsza do różnych zadań? Widziałem kilka prac porównujących je i mają one formę:

„W tym wysoce wyspecjalizowanym obszarze nie używaj GEE dla X, nie używaj modeli ME dla Y”.

Nie znalazłem żadnej bardziej ogólnej porady. Czy ktoś może mnie oświecić?

Dziękuję Ci!

Chris Beeley
źródło
1
„wydają się oferować o wiele większą elastyczność” ... Cóż, różnią się również swoim podejściem, ponieważ GEE są stosowane w celu dopasowania do rozkładu krańcowego, w przeciwieństwie do podejścia warunkowego, które często jest interesujące podczas korzystania z GLMM.
chl
Zauważ, że glmmPQLmoże również pasować do struktur korelacji AR
Tom Wenseleers,
Co to jest związek AR?
Nauka statystyk na przykładzie
@incodeveritas Autoregresywna struktura kowariancji
Tommyixi

Odpowiedzi:

56

Użyj GEE, jeśli chcesz odkryć średni efekt populacyjny zmiennej towarzyszącej w porównaniu z efektem indywidualnym. Te dwie rzeczy są równoważne tylko w modelach liniowych, ale nie w nieliniowych (np. Logistycznych). Aby to zobaczyć, weźmy na przykład model logistyczny efektów losowych -tej obserwacji -tego podmiotu, ;jiYij

log(pij1pij)=μ+ηi

gdzie jest efekt losowy przedmiotowi i .ηiN(0,σ2)ipij=P(Yij=1|ηi)

Jeśli użyjesz modelu losowych efektów na tych danych, uzyskasz szacunkową wartość która uwzględnia fakt, że dla każdej osoby zastosowano średnie zerowe zaburzenie o rozkładzie normalnym, co czyni ją indywidualną.μ

Jeśli użyjesz GEE do tych danych, oszacujesz średnie dzienne szanse na rejestrację. W tym przypadku tak by było

ν=log(Eη(11+eμηi)1Eη(11+eμηi))

νμ , ogólnie. Na przykład, jeśli i , to . Chociaż efekty losowe mają średnie zero na przekształconej (lub połączonej ) skali, ich wpływ nie jest równy zeru na oryginalnej skali danych. Spróbuj symulować niektóre dane z modelu regresji logistycznej z efektami mieszanymi i porównać średnią poziomu populacji z odwrotnym logitem przechwytywania, a zobaczysz, że nie są one równe, jak w tym przykładzie. Ta różnica w interpretacji współczynników stanowi podstawową różnicę między GEE a modelami efektów losowych .μ=1σ2=1ν.83

Edycja: Ogólnie model efektów mieszanych bez predyktorów można zapisać jako

ψ(E(Yij|ηi))=μ+ηi

gdzie jest funkcją łącza. Kiedy tylkoψ

ψ(Eη(ψ1(E(Yij|ηi))))Eη(E(Yij|ηi))

będzie różnica między średnimi współczynnikami populacji (GEE) a poszczególnymi współczynnikami specyficznymi (modele efektów losowych). Oznacza to, że średnie zmieniają się przez przekształcenie danych, zintegrowanie losowych efektów na przekształconej skali, a następnie przekształcenie z powrotem. Zauważ, że w modelu liniowym (tj. ) równość obowiązuje, więc są równoważne.ψ(x)=x

Edycja 2: Warto również zauważyć, że „solidne” standardowe błędy typu sandwich generowane przez model GEE zapewniają prawidłowe asymptotyczne przedziały ufności (np. Faktycznie zajmują 95% czasu), nawet jeśli określona w modelu struktura korelacji nie jest poprawny.

Edycja 3: Jeśli interesuje Cię zrozumienie struktury asocjacji w danych, szacunki GEE powiązań są notorycznie nieefektywne (a czasem niespójne). Widziałem odniesienie do tego, ale nie mogę go teraz umieścić.

Makro
źródło
3
(+1) Jeśli chodzi o twoją 2. edycję, dodam, że estymatory wariancji oparte na modelu będą działać lepiej z niewielką liczbą klastrów (lub możemy użyć estymatora Jacknife). Jeśli chodzi o odniesienie, zawsze wskazuję na gbi.agrsci.dk/statistics/courses/phd07/material/Day10 , który zawiera bardzo ładne notatki z wykładów (tło statystyczne, w tym porównanie metod GEE vs. GLMM + ilustracje w R) .
chl
Wow, co za świetna odpowiedź. Dziękuję bardzo. Właśnie tego szukałem. I dzięki chl również za link. +10 internetów do was obu.
Chris Beeley,
Czy GEE również nie zakładają, że efekty wyższego poziomu są uciążliwymi parametrami? Wydaje mi się, że to kolejne ważne rozróżnienie - jeśli ktoś jest zainteresowany tymi efektami, to GEE nie dałby ci tego. Alternatywnie, jeśli nie czujesz się komfortowo, przyjmując te założenia dystrybucyjne, być może GEE byłaby lepsza.
robin.datadrivers,
Link podany przez @chl jest martwy: / (sześć lat później można się spodziewać, prawda?)
Guilherme Marthe
@GuilhermeMarthe Dobry połów! Niestety powiązałem ten sam materiał w innym wątku . Widzę dwie opcje: odwołaj się do pakietu geepack R (opracowanego przez tych samych dwóch autorów) lub użyj na razie WayBack Machine .
chl
10

Moim zdaniem GEE jest najbardziej użyteczny, gdy nie używamy modelowania bayesowskiego i gdy rozwiązanie pełnego prawdopodobieństwa nie jest dostępne. Ponadto GEE może wymagać większych próbek, aby być wystarczająco dokładnym, i jest bardzo mało odporny na przypadkowo brakujące dane podłużne. GEE zakłada brak losowy całkowicie, podczas gdy metody wiarygodności (na przykład modele z efektem mieszanym lub uogólnione najmniejsze kwadraty) zakładają brak tylko losowo.

Frank Harrell
źródło
1

Dokładną dyskusję i konkretne przykłady można znaleźć w Fitzmaurice, Laird and Ware, Applied Longitudinal Analysis , John Wiley & Sons, 2011, 2. wydanie, rozdziały 11-16.

Jeśli chodzi o przykłady, możesz znaleźć zestawy danych i programy SAS / Stata / R na stronie internetowej towarzyszącej .

Sergio
źródło
2
Czy mógłbyś podsumować główne punkty tej książki?
chl
2
Powiedziałbym, że Macro już to zrobił ;-) W książce można znaleźć dłuższą i bardziej szczegółową dyskusję, kilka przykładów analitycznych, liczbowych i graficznych oraz kilka innych kwestii, między innymi to, co dodał Frank Harrell. Możesz także zajrzeć na blog Gelmana .
Sergio