GEE: wybór odpowiedniej roboczej struktury korelacji

19

Jestem epidemiologiem, który próbuje zrozumieć GEE w celu prawidłowej analizy badania kohortowego (używając regresji Poissona z łączem logarytmicznym, aby oszacować ryzyko względne). Mam kilka pytań dotyczących „korelacji roboczej”, które chciałbym wyjaśnić komuś bardziej kompetentnemu:

(1) Jeśli powtórzyłem pomiary u tej samej osoby, czy zazwyczaj najbardziej rozsądne jest przyjęcie struktury wymiennej? (Lub autoregresyjny, jeśli pomiary wykazują trend)? Co z niezależnością - czy istnieją przypadki, w których można założyć niezależność dla pomiarów u tej samej osoby?

(2) Czy istnieje (stosunkowo prosty) sposób oceny właściwej struktury poprzez badanie danych?

(3) Zauważyłem, że przy wyborze struktury niezależności otrzymuję takie same oszacowania punktowe (ale niższe błędy standardowe), jak podczas uruchamiania prostej regresji Poissona (przy użyciu R, funkcji glm()i geeglm()z pakietu geepack). Dlaczego to się dzieje? Rozumiem, że w przypadku GEE szacujesz model uśredniony dla populacji (w przeciwieństwie do specyficznego dla przedmiotu), więc powinieneś otrzymać te same oszacowania punktowe tylko w przypadku regresji liniowej.

(4) Jeśli moja grupa znajduje się w wielu lokalizacjach (ale jeden pomiar na osobę), czy powinienem wybrać niezależność lub wymienną korelację roboczą i dlaczego? Mam na myśli, że osoby w każdej witrynie są nadal od siebie niezależne, prawda? Tak więc, na przykład dla konkretnego modelu, określam stronę jako efekt losowy. Jednak w przypadku GEE niezależność i wymienność dają różne szacunki i nie jestem pewien, który z nich jest lepszy pod względem założeń.

(5) Czy GEE może obsłużyć 2-poziomowe hierarchiczne grupowanie, tj. Kohortę obejmującą wiele lokalizacji z powtarzanymi pomiarami na osobę? Jeśli tak, co powinienem określić jako zmienną grupującą geeglm()i jaka powinna być korelacja robocza, jeśli przyjmie się na przykład „niezależność” dla pierwszego poziomu (witryny) i „wymienną” lub „autoregresyjną” dla drugiego poziomu (osoby)?

Rozumiem, że to kilka pytań, a niektóre z nich mogą być dość podstawowe, ale wciąż bardzo trudne (a może inni nowicjusze?) Do zrozumienia. Tak więc każda pomoc jest bardzo i szczerze doceniana. Aby to pokazać, zacząłem nagrodę.

Theodore Lytras
źródło

Odpowiedzi:

12
  1. Niekoniecznie. W przypadku małych klastrów, niezrównoważonego projektu i niepełnej korekty pomieszania w obrębie klastra wymienna korelacja może być bardziej nieefektywna i tendencyjna względem niezależnego GEE. Te założenia mogą być również dość mocne. Jednak po spełnieniu tych założeń można bardziej efektywnie wnioskować o wymianie. Nigdy nie znalazłem przypadku, w którym struktury korelacji AR-1 mają sens, ponieważ rzadko zdarza się, że pomiary są zrównoważone w czasie (pracuję z danymi ludzi).

  2. Cóż, badanie korelacji jest dobre i powinno odbywać się w analizie danych. Jednak tak naprawdę nie powinno to kierować podejmowaniem decyzji. Za pomocą wariogramów i lorellogramów można wizualizować korelację w badaniach podłużnych i panelowych. Korelacja między klastrami jest dobrym pomiarem zakresu korelacji w ramach klastrów.

  3. Struktura korelacji w GEE, w przeciwieństwie do modeli mieszanych, nie wpływa na oszacowania parametrów krańcowych (które są szacowane za pomocą GEE). Wpływa to jednak na standardowe oszacowania błędów. Jest to niezależne od żadnej funkcji łącza. Funkcja link w GEE jest dla modelu marginalnego.

  4. Witryny mogą być źródłem niezmierzonych zmian, takich jak zęby w jamie ustnej lub uczniowie w okręgu szkolnym. Dane te mogą potencjalnie zaburzać poziom klastrów, np. Genetyczną skłonność do próchnicy lub fundusze na edukację społeczności, dlatego też można uzyskać lepsze standardowe szacunki błędów dzięki zastosowaniu wymiennej struktury korelacji.

  5. Obliczanie efektów krańcowych w GEE jest skomplikowane, gdy nie są zagnieżdżone, ale można to zrobić . Zagnieżdżanie jest łatwe i robisz tak, jak powiedziałeś.

AdamO
źródło
(Odnośnie # 5) Więc w przypadku klastrowania zagnieżdżonego wystarczy wybrać zmienną klastra najwyższego poziomu i to wszystko?
Theodore Lytras
Nie, możesz stworzyć hierarchiczną dwupoziomową wymienną strukturę korelacji i konsekwentnie oszacować dwa oddzielne parametry korelacji dla korelacji za pomocą 3-etapowego algorytmu EM. W ten sposób wiesz, że dzieci w społecznościach są skorelowane, ale nie tak skorelowane jak dzieci w gospodarstwie domowym.
AdamO
Przepraszam, nie rozumiem tego. Czy możesz wskazać mi jakiś kod, najlepiej w R lub Stata? Myślę, że to powinno pomóc.
Theodore Lytras
1
@TheodoreLytras przepraszam, pomyliłem się. Twoje poprzednie twierdzenie jest poprawne. Z samego artykułu połączyłem: „Ponadto, jeśli wiele klastrów jest idealnie zagnieżdżonych, grupowanie GEE w klastrze najwyższego poziomu uwzględnia wielopoziomową strukturę korelacji poprzez estymator wariancji kanapkowej”.
AdamO
1
Być może masz na myśli coś innego, ale kiedy powiesz „Struktura korelacji w GEE, w przeciwieństwie do modeli mieszanych, nie wpływa na oszacowanie parametrów krańcowych”, myślę, że to nieprawda. Przynajmniej jeśli masz na myśli, że współczynniki pozostają niezmienione przez wybranie innej działającej macierzy korelacji, nie dzieje się tak: macierz korelacji działa w macierzy wagowej i wpływa na macierz kowariancji, a także na współczynniki.
Nick
6

(1) Prawdopodobnie będziesz potrzebować pewnego rodzaju struktury autoregresyjnej, po prostu dlatego, że spodziewamy się, że pomiary wykonane dalej od siebie będą mniej skorelowane niż pomiary wykonane bliżej siebie. Wymienialne zakłada, że ​​wszystkie są jednakowo skorelowane. Ale jak wszystko inne, to zależy.

(2) Myślę, że tego rodzaju decyzja sprowadza się do myślenia o tym, jak dane zostały wygenerowane, a nie do tego, jak wyglądają.

(4) to zależy. Na przykład dzieci zagnieżdżone w szkołach w większości przypadków nie powinny być traktowane jako niezależne. Ze względu na wzorce społeczne itp., Jeśli wiem coś o dziecku w danej szkole, to prawdopodobnie wiem przynajmniej trochę o innych dzieciach w szkołach. Kiedyś użyłem GEE do spojrzenia na związki między różnymi wskaźnikami społecznymi i ekonomicznymi a występowaniem otyłości w grupie porodowej, w której uczestnicy byli zagnieżdżeni w dzielnicach. Użyłem wymiennej struktury. Możesz znaleźć artykuł tutaj i sprawdzić niektóre z odniesień, w tym 2 z epi czasopism.

(5) Najwyraźniej tak (np. Zobacz ten przykład ), ale nie mogę pomóc w szczegółach R.

Zeger SL, Liang KY, Albert PS. Modele danych podłużnych: uogólnione podejście do równania szacunkowego. Biometria. 1988; 44: 1049–60.

Hubbard AE, Ahern J, Fleischer N, van der Laan M, Lippman S, Bruckner T, Satariano W. Epidemiologia. 2009

Hanley JA, Negassa A, Edwardes MDB, Forrester JE. Analiza statystyczna skorelowanych danych przy użyciu uogólnionych równań szacunkowych: orientacja. Am J Epidemiol. 2003; 157: 364.

DL Dahly
źródło
Jest to rzeczywiście pomocne, ale zastanawiam się, dlaczego ktokolwiek używałby struktury niezależności, ponieważ grupowanie samo w sobie sugeruje pewien stopień podobieństwa między obserwacjami. Mam jednak wrażenie, że w przypadku szkół podobieństwo jest w stosunku do innych szkół i w każdej szkole uczniowie byliby niezależni. Więc nadal nie jestem zbyt jasny.
Theodore Lytras
Tak, jeśli ograniczysz modelowanie próbek i kolejnych do jednej szkoły, nie martw się. W takim przypadku bardziej uzasadnione byłoby założenie, że błędy zostały popełnione. Ale kiedy zaczniesz łączyć dzieci z różnych szkół w tę samą próbkę / model, założenie to stanie się trwałe, chyba że weźmiesz pod uwagę szkołę w modelu, tj. Tak, że zakłada się błędy uwarunkowane szkołą.
DL Dahly,
Warto również zauważyć, że ludzie mogą być dla ciebie bardziej pomocni, jeśli możesz podać szczegółowe informacje dotyczące wielkości próby, liczby i czasu powtarzania pomiarów, liczby klastrów itp.
DL Dahly 30.01.2014
2
@DLDahly twój punkt w (1) nie jest czymś, co często znajduję w analizach panelu biostatystycznego. Jednym z założeń stojących za strukturami korelacji AR-N jest to, że biorąc pod uwagę wystarczająco dużo czasu między nimi, dwa pomiary tego samego osobnika będą tak samo nieskorelowane jak dwa pomiary między różnymi osobnikami. Jednak podstawowymi głównymi pomieszaczami między klastrami często nie są zmienne towarzyszące w czasie (takie jak markery genetyczne), a założenie, że inaczej jest bardzo trudne (jeśli nie niemożliwe) do oceny. Lorrelogram to jednak bardzo dobre miejsce na początek.
AdamO
1

(0) Uwagi ogólne: większość modeli, które widzę podczas weryfikacji krzyżowej, jest zdecydowanie zbyt skomplikowana. Uprość, jeśli to w ogóle możliwe. Często warto modelować za pomocą GEE i modelu mieszanego, aby porównać wyniki.
(1) Tak. Wybierz wymienne. Moja jednoznaczna odpowiedź opiera się na najczęściej reklamowanej korzyści GEE: odporności szacunków na poczynione założenia.
Jeśli spojrzysz na studia w swojej dziedzinie, powinieneś zobaczyć, że wymiana jest opcją domyślną. To nie znaczy, że jest najlepszy, ale powinien być pierwszym do rozważenia. Doradztwo giełdzie będzie najlepszą radą bez szczegółowej wiedzy na temat twoich danych.
(2) Tak, istnieją podejścia oparte na danych, takie jak „QIC”. Jest to przykład Stata, ale powszechnie akceptowany jako rozsądna opcja, choć bardzo rzadko stosowany w praktyce:http://www.stata-journal.com/sjpdf.html?articlenum=st0126 )
(3) Szacunki punktowe nigdy nie są dokładnie takie same (chyba że używasz niezależnej struktury korelacji), ale zwykle są dość zbliżone. Można znaleźć wiele artykułów porównujących oszacowania modelu efektów prostych / mieszanych / mieszanych, aby to sprawdzić ( https://recherche.univ-lyon2.fr/greps/IMG/pdf/JEBS.pdf ) Większość podręczników ma również tabelę lub dwa za to. Dla niezależnej struktury korelacji zasadniczo używasz modelu Poissona z solidnymi SE. Tak więc szacunki będą dokładnie takie same. SE są zwykle większe. Ale czasami solidne SE są mniejsze (to znaczy życie: Google z wyjaśnieniem bez bólu, jeśli jest zainteresowany)
(4) Patrz (1) i (2) powyżej.
(5) Nie. Lub lepiej mówiąc, możesz zrobić wszystko, jeśli włożysz w to wystarczająco dużo wysiłku, ale bardzo rzadko jest to warte wysiłku.

Charles
źródło
0

Używasz niewłaściwego podejścia z gee do robienia tego, co robisz, ponieważ nie znasz struktury, a Twoje wyniki prawdopodobnie będą zdezorientowane. Zobacz to Jamie Robinson. Musisz używać długo. TMLE (mark van der laan) lub może gee z ciężarami iptw. Brak uwzględnienia korelacji nie lekceważy wariancji. Pomyśl tylko, jeśli wszystkie powtarzane miary byłyby w 100% skorelowane, wtedy miałbyś znacznie mniej obserwacji (zasadniczo tylko n dla twoich n badanych), a mniejszy n oznacza większą wariancję.

Jonathan Levy
źródło
Jeśli masz wynik typu non-survival, możesz zastosować podejście gee z niezależną strukturą Corr i wagami iptw, jak sugerowano dla obiektywnych szacunków, zakładając, że uzyskasz prawidłowy wynik skłonności. TMLE najlepiej jest stosować we wszystkich przypadkach, niezależnie od tego, czy przeżyjesz, czy nie, ponieważ możesz korzystać z nauki zespołowej, aby przewidywać wyniki skłonności i sekwencyjne regresje i nadal uzyskiwać skuteczne wnioskowanie. Twoje podejście z pewnością będzie stronnicze i da błędne wnioskowanie, a im większy będzie rozmiar próby, jeśli nie będzie żadnego efektu, prawdopodobnie wskażesz niewłaściwy znaczący efekt !!
Jonathan Levy
Przydałoby się więcej szczegółów. Co to jest Janie Robinson? Który artykuł van der Laana?
mdewey
@mdewey przepraszam, literówka, znaczy Jamie Robins. Wypróbuj Robins, hernan, brzeżne modele strukturalne Babette 2000 i wnioskowanie przyczynowo-skutkowe - świetna metoda na uzyskanie efektu nie przetrwania, w tym sposób wykonywania msm z modyfikatorami efektów. Dla laana zapoznaj się z książką, ukierunkowane uczenie się. Jak powiedziałem, laan jest prawdopodobnie najlepszy, ale wymaga więcej zrozumienia. Pakiet R Ltmle stosuje tę metodologię, ale na naukę zajmuje trochę czasu.
Jonathan Levy