Jak ustalić, czy model przetrwania z brakującymi danymi jest odpowiedni?

9

Upraszczając nieco, mam około miliona rekordów, które rejestrują czas wejścia i wyjścia ludzi w systemie trwającym około dziesięciu lat. Każdy rekord ma czas wejścia, ale nie każdy rekord ma czas wyjścia. Średni czas w systemie wynosi ~ 1 rok.

Brakujące czasy wyjścia występują z dwóch powodów:

  1. Osoba nie opuściła systemu w momencie przechwytywania danych.
  2. Czas wyjścia danej osoby nie został zarejestrowany. Zdarza się to powiedzieć, że 50% zapisów

Do interesujących pytań należą:

  1. Czy ludzie spędzają mniej czasu w systemie i ile mniej czasu.
  2. Czy rejestruje się więcej czasów wyjścia i ile.

Możemy to modelować, mówiąc, że prawdopodobieństwo zarejestrowania wyjścia zmienia się liniowo w czasie i że czas w systemie ma Weibulla, którego parametry zmieniają się liniowo w czasie. Następnie możemy dokonać oceny maksymalnego prawdopodobieństwa różnych parametrów i spojrzeć na wyniki i uznać je za wiarygodne. Wybraliśmy rozkład Weibulla, ponieważ wydaje się, że jest używany do pomiaru żywotności i fajnie jest powiedzieć, a nie lepiej dopasowywać dane niż powiedzieć rozkład gamma.

Gdzie powinienem szukać wskazówek, jak to zrobić poprawnie? Jesteśmy nieco matematyczni, ale nie bardzo statystycznie.

deinst
źródło

Odpowiedzi:

5

Podstawowym sposobem sprawdzenia, czy Twoje dane są Weibull, jest wykreślenie dziennika skumulowanych zagrożeń w zależności od dziennika czasów i sprawdzenie, czy prosta linia może być dobrym dopasowaniem. Skumulowane zagrożenie można znaleźć za pomocą nieparametrycznego estymatora Nelson-Aalen. Istnieje podobna diagnostyka graficzna dla regresji Weibulla, jeśli dopasujesz dane do zmiennych towarzyszących, a niektóre odnośniki zostaną zamieszczone poniżej.

Tekst Kleina i Moeschbergera jest całkiem niezły i obejmuje dużo miejsca z budowaniem / diagnostyką modeli dla modeli parametrycznych i półparametrycznych (choć głównie tych drugich). Jeśli pracujesz w R, książka Theneau jest całkiem dobra (wydaje mi się, że napisał pakiet przetrwania ). Obejmuje wiele modeli Cox PH i powiązanych modeli, ale nie pamiętam, czy ma duży zasięg modeli parametrycznych, takich jak ten, który budujesz.

BTW, czy to milion osób z jednym wejściem / wyjściem lub cyklicznymi wydarzeniami wejścia / wyjścia dla jakiejś mniejszej grupy osób? Czy uzależniasz swoje prawdopodobieństwo uwzględnienia mechanizmu cenzury?

ars
źródło
Dzięki, właśnie tego szukałem. Zasadniczo jest to milion osób z czasem wejścia i wyjścia. Tak, warunkujemy uwzględnienie cenzury.
deinst
2

Możesz użyć modelu szacunkowego, aby przewidzieć czasy wyjścia dla wszystkich osób w twoim systemie. Następnie możesz porównać szacunkowe czasy wyjścia z rzeczywistymi czasami wyjścia (tam, gdzie masz te dane) i obliczyć metrykę, taką jak RMSE, aby ocenić, jak dobre są twoje przewidywania, co z kolei da ci poczucie dopasowania modelu. Zobacz także ten link .


źródło
1
W przypadku punktów Millona i modelu 8-parametrowego test dobroci dopasowania, taki jak chi-kwadrat, mówi mi, że zasadniczo nie ma szans na poprawność modelu. (Co nie jest zaskakujące, ponieważ istnieją nieskończone czynniki wpływające na rzeczywistość, których nie ma w modelu) RMSE daje mi poczucie, jak dobrze model pasuje do danych, ale nie daje mi pojęcia, czy istnieje lepszy model
deinst
Cóż, aby dowiedzieć się, czy istnieje lepszy model, możesz albo eksperymentować z różnymi formułami, albo użyć różnych wykresów (np. Czasy wyjścia w funkcji czasu), aby sprawdzić, czy dane są zgodne z założeniami modelu. Można również wykreślić przewidywane czasy wyjścia dla małej próbki wybranej losowo w stosunku do rzeczywistych czasów w celu uzyskania pomysłów na ulepszenie modelu.