Mam zestaw danych składający się z serii miesięcznych przypadków „złamanego kija” z kilku stron. Usiłuję uzyskać jedno oszacowanie podsumowujące na podstawie dwóch różnych technik:
Technika 1: Dopasuj „złamany drążek” za pomocą Poissona GLM ze zmienną wskaźnikową 0/1 i używając zmiennej czasu i czasu ^ 2 do kontrolowania trendów w czasie. Oszacowanie zmiennej SE i wskaźnika SE jest łączone przy użyciu dość prostej metody momentów w górę lub w dół lub za pomocą pakietu tlnise w R, aby uzyskać oszacowanie „bayesowskie”. Jest to podobne do tego, co robią Peng i Dominici z danymi o zanieczyszczeniu powietrza, ale z mniejszą liczbą witryn (~ tuzin).
Technika 2: Porzuć część specyficznej dla witryny kontroli trendów w czasie i użyj liniowego modelu mieszanego. Szczególnie:
lmer(cases ~ indicator + (1+month+I(month^2) + offset(log(p)), family="poisson", data=data)
Moje pytanie dotyczy standardowych błędów, które wynikają z tych szacunków. Standardowy błąd Techniki 1, który w rzeczywistości wykorzystuje tygodniowy, a nie miesięczny czas, a zatem powinien mieć większą precyzję, ma standardowy błąd szacunkowy na około 0,206 dla metody Metody Momentów i ~ 0,306 dla tlnise.
Metoda Lmer daje standardowy błąd ~ 0,09. Oszacowania efektów są dość bliskie, więc nie wydaje się, że po prostu zerują różne oszacowania podsumowujące, ponieważ model mieszany jest znacznie bardziej wydajny.
Czy tego można się spodziewać? Jeśli tak, dlaczego modele mieszane są o wiele bardziej wydajne? Czy jest to zjawisko ogólne, czy konkretny wynik tego modelu?
źródło
Odpowiedzi:
Wiem, że to stare pytanie, ale jest dość popularne i ma prostą odpowiedź, więc mam nadzieję, że będzie pomocne dla innych w przyszłości. Dla podjęcia bardziej dogłębne, przyjrzeć się oczywiście Christoph Lippert w sprawie liniowe modele mieszane który bada je w kontekście badań asocjacyjnych całego genomu tutaj . W szczególności patrz Wykład 5 .
Powodem, dla którego model mieszany działa o wiele lepiej jest to, że został zaprojektowany tak, aby brać pod uwagę dokładnie to, co próbujesz kontrolować: strukturę populacji. „Populacje” w twoim badaniu to różne witryny wykorzystujące na przykład nieco inne, ale spójne implementacje tego samego protokołu. Ponadto, jeśli przedmiotem badań są ludzie, osoby z różnych stron są mniej skłonne do pokrewieństwa niż osoby z tego samego miejsca, więc powiązanie z krwią może również odgrywać pewną rolę.
Ponieważ próbujesz wyraźnie kontrolować strukturę populacji, nic dziwnego, że liniowy model mieszany przewyższał inne techniki regresji.
źródło