Model mieszany a łączenie standardowych błędów w badaniach w wielu lokalizacjach - dlaczego model mieszany jest o wiele bardziej wydajny?

Mam zestaw danych składający się z serii miesięcznych przypadków „złamanego kija” z kilku stron. Usiłuję uzyskać jedno oszacowanie podsumowujące na podstawie dwóch różnych technik:

Technika 1: Dopasuj „złamany drążek” za pomocą Poissona GLM ze zmienną wskaźnikową 0/1 i używając zmiennej czasu i czasu ^ 2 do kontrolowania trendów w czasie. Oszacowanie zmiennej SE i wskaźnika SE jest łączone przy użyciu dość prostej metody momentów w górę lub w dół lub za pomocą pakietu tlnise w R, aby uzyskać oszacowanie „bayesowskie”. Jest to podobne do tego, co robią Peng i Dominici z danymi o zanieczyszczeniu powietrza, ale z mniejszą liczbą witryn (~ tuzin).

Technika 2: Porzuć część specyficznej dla witryny kontroli trendów w czasie i użyj liniowego modelu mieszanego. Szczególnie:

lmer(cases ~ indicator + (1+month+I(month^2) + offset(log(p)), family="poisson", data=data)

Moje pytanie dotyczy standardowych błędów, które wynikają z tych szacunków. Standardowy błąd Techniki 1, który w rzeczywistości wykorzystuje tygodniowy, a nie miesięczny czas, a zatem powinien mieć większą precyzję, ma standardowy błąd szacunkowy na około 0,206 dla metody Metody Momentów i ~ 0,306 dla tlnise.

Metoda Lmer daje standardowy błąd ~ 0,09. Oszacowania efektów są dość bliskie, więc nie wydaje się, że po prostu zerują różne oszacowania podsumowujące, ponieważ model mieszany jest znacznie bardziej wydajny.

Czy tego można się spodziewać? Jeśli tak, dlaczego modele mieszane są o wiele bardziej wydajne? Czy jest to zjawisko ogólne, czy konkretny wynik tego modelu?

time-series mixed-model Fomite
źródło

Trudno jest odpowiedzieć na to pytanie, nie wiedząc dokładnie, jaki model pasuje do Twojej Techniki 1. Podajesz 3 możliwości, ale o ile wiem, nigdy nie zadowalaj się jedną. Potem powiesz „Standardowy błąd Techniki 1 [...] wynosi ~ 0,206”. Właśnie dla jakiego modelu jest to błąd standardowy? Czy opublikujesz składnię zastosowaną do dopasowania tego modelu, tak jak w przypadku Technique 2? Jeszcze lepsze byłoby zapewnienie odtwarzalnego przykładu (niekoniecznie twojego oryginalnego zestawu danych), do którego moglibyśmy sami dopasować oba modele.

Jake Westfall

@JakeWestfall Masz rację, kiedy napisałem to po raz pierwszy, było to coś w rodzaju pytania o świadomość w miarę rozwoju problemu. Zrobię trochę edycji i zobaczę, czy to może być bardziej pomocne. Niestety kod gdzieś zniknął ...

Fomite,

Wykonano trochę czyszczenia - konstrukcja modeli wykorzystuje te same zmienne. Niestety kod, dane itp. Są na innym komputerze, a ja jestem na konferencji. Myślę, że podstawowe pytanie można sprowadzić do „Szacunków dotyczących wielu witryn: czy modele mieszane są zawsze / często bardziej wydajne niż łączenie?”

Fomite,

Wiem, że to stare pytanie, ale jest dość popularne i ma prostą odpowiedź, więc mam nadzieję, że będzie pomocne dla innych w przyszłości. Dla podjęcia bardziej dogłębne, przyjrzeć się oczywiście Christoph Lippert w sprawie liniowe modele mieszane który bada je w kontekście badań asocjacyjnych całego genomu tutaj . W szczególności patrz Wykład 5 .

Powodem, dla którego model mieszany działa o wiele lepiej jest to, że został zaprojektowany tak, aby brać pod uwagę dokładnie to, co próbujesz kontrolować: strukturę populacji. „Populacje” w twoim badaniu to różne witryny wykorzystujące na przykład nieco inne, ale spójne implementacje tego samego protokołu. Ponadto, jeśli przedmiotem badań są ludzie, osoby z różnych stron są mniej skłonne do pokrewieństwa niż osoby z tego samego miejsca, więc powiązanie z krwią może również odgrywać pewną rolę.

$\mathcal{N}(Y|X\beta,\sigma^2)$ $K$ $\mathcal{N}(Y|X\beta + Zu,\sigma^2I + \sigma_g^2K)$

Ponieważ próbujesz wyraźnie kontrolować strukturę populacji, nic dziwnego, że liniowy model mieszany przewyższał inne techniki regresji.

Michael K.
źródło

Model mieszany a łączenie standardowych błędów w badaniach w wielu lokalizacjach - dlaczego model mieszany jest o wiele bardziej wydajny?

Odpowiedzi: