Jestem epidemiologiem, który próbuje zrozumieć GEE w celu prawidłowej analizy badania kohortowego (używając regresji Poissona z łączem logarytmicznym, aby oszacować ryzyko względne). Mam kilka pytań dotyczących „korelacji roboczej”, które chciałbym wyjaśnić komuś bardziej kompetentnemu:
(1) Jeśli powtórzyłem pomiary u tej samej osoby, czy zazwyczaj najbardziej rozsądne jest przyjęcie struktury wymiennej? (Lub autoregresyjny, jeśli pomiary wykazują trend)? Co z niezależnością - czy istnieją przypadki, w których można założyć niezależność dla pomiarów u tej samej osoby?
(2) Czy istnieje (stosunkowo prosty) sposób oceny właściwej struktury poprzez badanie danych?
(3) Zauważyłem, że przy wyborze struktury niezależności otrzymuję takie same oszacowania punktowe (ale niższe błędy standardowe), jak podczas uruchamiania prostej regresji Poissona (przy użyciu R, funkcji glm()
i geeglm()
z pakietu geepack
). Dlaczego to się dzieje? Rozumiem, że w przypadku GEE szacujesz model uśredniony dla populacji (w przeciwieństwie do specyficznego dla przedmiotu), więc powinieneś otrzymać te same oszacowania punktowe tylko w przypadku regresji liniowej.
(4) Jeśli moja grupa znajduje się w wielu lokalizacjach (ale jeden pomiar na osobę), czy powinienem wybrać niezależność lub wymienną korelację roboczą i dlaczego? Mam na myśli, że osoby w każdej witrynie są nadal od siebie niezależne, prawda? Tak więc, na przykład dla konkretnego modelu, określam stronę jako efekt losowy. Jednak w przypadku GEE niezależność i wymienność dają różne szacunki i nie jestem pewien, który z nich jest lepszy pod względem założeń.
(5) Czy GEE może obsłużyć 2-poziomowe hierarchiczne grupowanie, tj. Kohortę obejmującą wiele lokalizacji z powtarzanymi pomiarami na osobę? Jeśli tak, co powinienem określić jako zmienną grupującą geeglm()
i jaka powinna być korelacja robocza, jeśli przyjmie się na przykład „niezależność” dla pierwszego poziomu (witryny) i „wymienną” lub „autoregresyjną” dla drugiego poziomu (osoby)?
Rozumiem, że to kilka pytań, a niektóre z nich mogą być dość podstawowe, ale wciąż bardzo trudne (a może inni nowicjusze?) Do zrozumienia. Tak więc każda pomoc jest bardzo i szczerze doceniana. Aby to pokazać, zacząłem nagrodę.
(1) Prawdopodobnie będziesz potrzebować pewnego rodzaju struktury autoregresyjnej, po prostu dlatego, że spodziewamy się, że pomiary wykonane dalej od siebie będą mniej skorelowane niż pomiary wykonane bliżej siebie. Wymienialne zakłada, że wszystkie są jednakowo skorelowane. Ale jak wszystko inne, to zależy.
(2) Myślę, że tego rodzaju decyzja sprowadza się do myślenia o tym, jak dane zostały wygenerowane, a nie do tego, jak wyglądają.
(4) to zależy. Na przykład dzieci zagnieżdżone w szkołach w większości przypadków nie powinny być traktowane jako niezależne. Ze względu na wzorce społeczne itp., Jeśli wiem coś o dziecku w danej szkole, to prawdopodobnie wiem przynajmniej trochę o innych dzieciach w szkołach. Kiedyś użyłem GEE do spojrzenia na związki między różnymi wskaźnikami społecznymi i ekonomicznymi a występowaniem otyłości w grupie porodowej, w której uczestnicy byli zagnieżdżeni w dzielnicach. Użyłem wymiennej struktury. Możesz znaleźć artykuł tutaj i sprawdzić niektóre z odniesień, w tym 2 z epi czasopism.
(5) Najwyraźniej tak (np. Zobacz ten przykład ), ale nie mogę pomóc w szczegółach R.
Zeger SL, Liang KY, Albert PS. Modele danych podłużnych: uogólnione podejście do równania szacunkowego. Biometria. 1988; 44: 1049–60.
Hubbard AE, Ahern J, Fleischer N, van der Laan M, Lippman S, Bruckner T, Satariano W. Epidemiologia. 2009
Hanley JA, Negassa A, Edwardes MDB, Forrester JE. Analiza statystyczna skorelowanych danych przy użyciu uogólnionych równań szacunkowych: orientacja. Am J Epidemiol. 2003; 157: 364.
źródło
(0) Uwagi ogólne: większość modeli, które widzę podczas weryfikacji krzyżowej, jest zdecydowanie zbyt skomplikowana. Uprość, jeśli to w ogóle możliwe. Często warto modelować za pomocą GEE i modelu mieszanego, aby porównać wyniki.
(1) Tak. Wybierz wymienne. Moja jednoznaczna odpowiedź opiera się na najczęściej reklamowanej korzyści GEE: odporności szacunków na poczynione założenia.
Jeśli spojrzysz na studia w swojej dziedzinie, powinieneś zobaczyć, że wymiana jest opcją domyślną. To nie znaczy, że jest najlepszy, ale powinien być pierwszym do rozważenia. Doradztwo giełdzie będzie najlepszą radą bez szczegółowej wiedzy na temat twoich danych.
(2) Tak, istnieją podejścia oparte na danych, takie jak „QIC”. Jest to przykład Stata, ale powszechnie akceptowany jako rozsądna opcja, choć bardzo rzadko stosowany w praktyce:http://www.stata-journal.com/sjpdf.html?articlenum=st0126 )
(3) Szacunki punktowe nigdy nie są dokładnie takie same (chyba że używasz niezależnej struktury korelacji), ale zwykle są dość zbliżone. Można znaleźć wiele artykułów porównujących oszacowania modelu efektów prostych / mieszanych / mieszanych, aby to sprawdzić ( https://recherche.univ-lyon2.fr/greps/IMG/pdf/JEBS.pdf ) Większość podręczników ma również tabelę lub dwa za to. Dla niezależnej struktury korelacji zasadniczo używasz modelu Poissona z solidnymi SE. Tak więc szacunki będą dokładnie takie same. SE są zwykle większe. Ale czasami solidne SE są mniejsze (to znaczy życie: Google z wyjaśnieniem bez bólu, jeśli jest zainteresowany)
(4) Patrz (1) i (2) powyżej.
(5) Nie. Lub lepiej mówiąc, możesz zrobić wszystko, jeśli włożysz w to wystarczająco dużo wysiłku, ale bardzo rzadko jest to warte wysiłku.
źródło
Używasz niewłaściwego podejścia z gee do robienia tego, co robisz, ponieważ nie znasz struktury, a Twoje wyniki prawdopodobnie będą zdezorientowane. Zobacz to Jamie Robinson. Musisz używać długo. TMLE (mark van der laan) lub może gee z ciężarami iptw. Brak uwzględnienia korelacji nie lekceważy wariancji. Pomyśl tylko, jeśli wszystkie powtarzane miary byłyby w 100% skorelowane, wtedy miałbyś znacznie mniej obserwacji (zasadniczo tylko n dla twoich n badanych), a mniejszy n oznacza większą wariancję.
źródło