Jaka jest różnica między modelem GLM (regresja logistyczna) ze zmienną odpowiedzi binarnej, która obejmuje podmiot i czas jako współzmienne, a analogicznym modelem GEE, który uwzględnia korelację między pomiarami w wielu punktach czasowych?
Mój GLM wygląda następująco:
Y(binary) ~ A + B1X1(subject id) + B2X2(time)
+ B3X3(interesting continuous covariate)
z funkcją łącza logit.
Szukam prostego (skierowanego do naukowców społecznych) wyjaśnienia, w jaki sposób i dlaczego czas jest traktowany inaczej w obu modelach oraz jakie będą implikacje dla interpretacji.
Odpowiedzi:
Być może istnieje lepsza i bardziej szczegółowa odpowiedź, ale mogę podać kilka prostych, szybkich przemyśleń. Wygląda na to, że mówisz o zastosowaniu Uogólnionego Modelu Liniowego (np. Typowej regresji logistycznej) w celu dopasowania danych zebranych od niektórych osób w wielu punktach czasowych. Na pierwszy rzut oka widzę dwa rażące problemy z tym podejściem.
Po pierwsze, ten model zakłada, że twoje dane są niezależne, biorąc pod uwagę zmienne towarzyszące (to znaczy, po uwzględnieniu fałszywego kodu dla każdego podmiotu, podobnie jak w przypadku pojedynczego terminu przechwytywania i liniowego trendu czasowego, który jest równy dla wszystkich). Jest to bardzo mało prawdopodobne. Zamiast tego prawie na pewno wystąpią autokorelacje, na przykład dwie obserwacje tego samego osobnika bliżej w czasie będą bardziej podobne niż dwie obserwacje bardziej oddalone od siebie w czasie, nawet po uwzględnieniu czasu . (Chociaż mogą one być niezależne, jeśli uwzględnisz również
subject ID x time
interakcję - tj. Unikalny trend czasowy dla wszystkich - ale zaostrzy to kolejny problem).Po drugie, spalisz ogromną liczbę stopni swobody, szacując parametr dla każdego uczestnika. Prawdopodobnie pozostanie Ci stosunkowo niewiele stopni swobody, dzięki którym możesz dokładnie oszacować swoje interesujące parametry (oczywiście zależy to od liczby pomiarów, jakie masz na osobę).
Jak na ironię, pierwszy problem oznacza, że przedziały ufności są zbyt wąskie, podczas gdy drugi oznacza, że twoje CI będą znacznie szersze niż byłyby, gdybyś nie zmarnował większości swoich stopni swobody. Jednak nie liczyłbym na to, że te dwie osoby się równoważą. Jeśli chodzi o wartość, uważam, że szacunki parametrów byłyby obiektywne (chociaż mogę się tutaj mylić).
W tym przypadku właściwe jest zastosowanie uogólnionych równań szacunkowych. Kiedy dopasować model używając Rany, można określić strukturę Correlational (takich jak AR (1)), a to może być całkiem rozsądne, że Twoje dane są niezależne uzależnione od obu swoich zmiennych towarzyszących oraz macierzy korelacji określonym. Ponadto GEE szacuje, że populacja oznacza asocjację, więc nie musisz spalać stopnia swobody dla każdego uczestnika - w gruncie rzeczy uśredniasz go.
Jeśli chodzi o interpretację, o ile mi wiadomo, w obu przypadkach byłaby taka sama: biorąc pod uwagę, że pozostałe czynniki pozostają niezmienne, zmiana X3 o jedną jednostkę jest powiązana ze zmianą B3 szansy na „sukces” .
źródło