Redundancja obsługi modeli efektów losowych

9

Próbuję poradzić sobie z analizą czasu do zdarzenia z wykorzystaniem powtarzających się wyników binarnych. Załóżmy, że czas do zdarzenia mierzony jest w dniach, ale na razie dyskretujemy czas do tygodni. Chcę aproksymować estymator Kaplana-Meiera (ale uwzględniać zmienne towarzyszące) przy użyciu powtarzanych wyników binarnych. Wydaje się, że jest to droga okrężna, ale badam, w jaki sposób obejmuje to zwykłe wyniki i powtarzające się wydarzenia.

Jeśli utworzysz sekwencję binarną, która wygląda jak 000 dla osoby ocenzurowanej przy 3 tygodniach, 0000 dla osoby ocenzurowanej przy 4 w, i 0000111111111111 .... dla podmiotu, który uległ awarii przy 5 w (1s rozciągają się do punktu, w którym ostatni temat był a następnie w badaniu), gdy obliczasz proporcje 1s dla konkretnego tygodnia, możesz uzyskać zwykłe skumulowane przypadki (aż dojdziesz do zmiennych czasów cenzury, gdzie to tylko przybliża, ale nie równa szacunkowej skumulowanej częstości występowania Kaplana-Meiera).

Potrafię dopasować powtarzane obserwacje binarne za pomocą binarnego modelu logistycznego za pomocą GEE, zamiast rozróżniać czas jak wyżej, ale zamiast tego używać splajnu w czasie. Estymator kowariancji kanapkowej klastra działa dość dobrze. Ale chciałbym uzyskać dokładniejsze wnioskowanie za pomocą modelu efektów mieszanych. Problem polega na tym, że 1 po pierwszej 1 są zbędne. Czy ktoś zna sposób określania efektów losowych lub model uwzględniający nadmiarowości, aby standardowe błędy nie były deflowane?

Zauważ, że ta konfiguracja różni się od Efrona, ponieważ używał modeli logistycznych do oszacowania prawdopodobieństw warunkowych w zestawach ryzyka. Szacuję bezwarunkowe prawdopodobieństwo.

Frank Harrell
źródło

Odpowiedzi:

3

O ile widzę zarówno w przypadku GEE, jak i modelu mieszanego do powtarzanych obserwacji binarnych, będziesz miał problem z tym, że model przypisze dodatnie prawdopodobieństwo „0” po zaobserwowaniu pierwszego „1”.

W każdym razie, biorąc pod uwagę, że chcesz dostać szacunków od A efekty mieszane regresji logistycznej, które będą miały taką samą interpretację, jak w GEE (patrz tutaj , aby uzyskać więcej informacji), można dopasować model używając mixed_model()funkcji z GLMMadaptive pakietu, a następnie użyć marginal_coefs(). Na przykład zobacz tutaj .

Dimitris Rizopoulos
źródło
1
Dzięki Dimitris. W moim przypadku z redundantnymi 1 (aby uzyskać prawidłową średnią funkcję) myślę, że będę potrzebował zmodyfikowanego modelu lub dziwnej konfiguracji efektów losowych. GLMMadaptivePakiet wygląda wspaniale dla bardziej ogólnej konfiguracji.
Frank Harrell,
2

Kilka przemyśleń na ten temat:

  1. Wydaje się, że model mieszanego efektu jest zasadniczo „warunkowym” modelem prawdopodobieństwa, tj. Jakie jest prawdopodobieństwo zdarzenia dla podmiotu, który jest zagrożony tym zdarzeniem.

  2. Wiemy, że prawdopodobieństwo „1” po pierwszym „1” wynosi jeden. Dlatego w kolejnych wartościach „1” nie ma żadnych dodatkowych informacji.

  3. Wydaje się, że ponieważ kolejne wartości „1” nie zawierają żadnych dodatkowych informacji, nie powinny one mieć wpływu na funkcję prawdopodobieństwa, a zatem nie powinny mieć wpływu na standardowe błędy estymatorów opartych na prawdopodobieństwie, ani same szacunki. Rzeczywiście, nie byłoby wpływu na kolejne wartości „1”, gdyby p (y = „1” | x) = 1, niezależnie od wartości parametrów modelu, tak jak powinno być.

  4. Możemy być w stanie wymusić to zachowanie (tj. P (y = '1' | x) = 1) i zachować pożądaną funkcję średnią, dodając zmienną wskaźnikową do modelu, która oznacza kolejne, i wymuszając jej współczynnik być bardzo duży, aby skutecznie p (y = '1' | x) = 1.

  5. Jak wspomniałeś, może być również sposób na wymuszenie pierwszej „1” i kolejnych odpowiedzi w celu uzyskania 100% korelacji. Ale w modelu dwumianowym jest to to samo, co p (y = '1' | x) = 1 dla kolejnych odpowiedzi.

Matt Shotwell
źródło
1
Dzięki Matt. Jeśli nie chciałem pełnego modelu, ale byłem zadowolony z szacowania równań, otrzymujesz duplikaty odpowiedzi do funkcji score, aby uzyskać prawidłową funkcję średniej, ale nie dodajesz ich do funkcji informacyjnej. Nie sądzę, żebym mógł dodać zmienną towarzyszącą wskaźnika, ponieważ byłoby to spowodowane np. Efektem leczenia. Myślę o modelu mieszanego efektu raczej o modelu bezwarunkowym. Kiedy wydarzenie nie jest stanem absorbującym, modelujesz efekty marginalne w sposób zależny od czasu.
Frank Harrell,
1

Nie jestem do końca pewien, co próbujesz zrobić, ale czy możesz dopasować model regresji logistycznej z pulą ( https://www.ncbi.nlm.nih.gov/pubmed/2281238 )? W takim przypadku uwzględnimy tylko 1 podczas interwału zdarzenia końcowego - nie powtórzy się on po wystąpieniu zdarzenia. Uwzględniasz czas w modelu w sposób elastyczny (np. Rozszerzony za pomocą splajnów).

Bryan Shepherd
źródło
1
Hej Bryan - bardzo lubię łączoną regresję logistyczną i często jej używałem. Ale jeśli zakończysz obserwacje podmiotu na zdarzeniu terminalnym, a inne podmioty będą śledzone poza tym punktem bez zdarzenia, dostaniesz błędną funkcję średnią (P (zdarzenie do czasu t)). Chcę uzyskać oszacowania skumulowanej częstości zbliżonej do Kaplana-Meiera dla średniej funkcji, przynajmniej w szczególnych przypadkach.
Frank Harrell,