Próbuję poradzić sobie z analizą czasu do zdarzenia z wykorzystaniem powtarzających się wyników binarnych. Załóżmy, że czas do zdarzenia mierzony jest w dniach, ale na razie dyskretujemy czas do tygodni. Chcę aproksymować estymator Kaplana-Meiera (ale uwzględniać zmienne towarzyszące) przy użyciu powtarzanych wyników binarnych. Wydaje się, że jest to droga okrężna, ale badam, w jaki sposób obejmuje to zwykłe wyniki i powtarzające się wydarzenia.
Jeśli utworzysz sekwencję binarną, która wygląda jak 000 dla osoby ocenzurowanej przy 3 tygodniach, 0000 dla osoby ocenzurowanej przy 4 w, i 0000111111111111 .... dla podmiotu, który uległ awarii przy 5 w (1s rozciągają się do punktu, w którym ostatni temat był a następnie w badaniu), gdy obliczasz proporcje 1s dla konkretnego tygodnia, możesz uzyskać zwykłe skumulowane przypadki (aż dojdziesz do zmiennych czasów cenzury, gdzie to tylko przybliża, ale nie równa szacunkowej skumulowanej częstości występowania Kaplana-Meiera).
Potrafię dopasować powtarzane obserwacje binarne za pomocą binarnego modelu logistycznego za pomocą GEE, zamiast rozróżniać czas jak wyżej, ale zamiast tego używać splajnu w czasie. Estymator kowariancji kanapkowej klastra działa dość dobrze. Ale chciałbym uzyskać dokładniejsze wnioskowanie za pomocą modelu efektów mieszanych. Problem polega na tym, że 1 po pierwszej 1 są zbędne. Czy ktoś zna sposób określania efektów losowych lub model uwzględniający nadmiarowości, aby standardowe błędy nie były deflowane?
Zauważ, że ta konfiguracja różni się od Efrona, ponieważ używał modeli logistycznych do oszacowania prawdopodobieństw warunkowych w zestawach ryzyka. Szacuję bezwarunkowe prawdopodobieństwo.
źródło
GLMMadaptive
Pakiet wygląda wspaniale dla bardziej ogólnej konfiguracji.Kilka przemyśleń na ten temat:
Wydaje się, że model mieszanego efektu jest zasadniczo „warunkowym” modelem prawdopodobieństwa, tj. Jakie jest prawdopodobieństwo zdarzenia dla podmiotu, który jest zagrożony tym zdarzeniem.
Wiemy, że prawdopodobieństwo „1” po pierwszym „1” wynosi jeden. Dlatego w kolejnych wartościach „1” nie ma żadnych dodatkowych informacji.
Wydaje się, że ponieważ kolejne wartości „1” nie zawierają żadnych dodatkowych informacji, nie powinny one mieć wpływu na funkcję prawdopodobieństwa, a zatem nie powinny mieć wpływu na standardowe błędy estymatorów opartych na prawdopodobieństwie, ani same szacunki. Rzeczywiście, nie byłoby wpływu na kolejne wartości „1”, gdyby p (y = „1” | x) = 1, niezależnie od wartości parametrów modelu, tak jak powinno być.
Możemy być w stanie wymusić to zachowanie (tj. P (y = '1' | x) = 1) i zachować pożądaną funkcję średnią, dodając zmienną wskaźnikową do modelu, która oznacza kolejne, i wymuszając jej współczynnik być bardzo duży, aby skutecznie p (y = '1' | x) = 1.
Jak wspomniałeś, może być również sposób na wymuszenie pierwszej „1” i kolejnych odpowiedzi w celu uzyskania 100% korelacji. Ale w modelu dwumianowym jest to to samo, co p (y = '1' | x) = 1 dla kolejnych odpowiedzi.
źródło
Nie jestem do końca pewien, co próbujesz zrobić, ale czy możesz dopasować model regresji logistycznej z pulą ( https://www.ncbi.nlm.nih.gov/pubmed/2281238 )? W takim przypadku uwzględnimy tylko 1 podczas interwału zdarzenia końcowego - nie powtórzy się on po wystąpieniu zdarzenia. Uwzględniasz czas w modelu w sposób elastyczny (np. Rozszerzony za pomocą splajnów).
źródło