Analiza przeżycia w celu przewidywania zdarzeń

9

Dla każdego rekordu w moich zestawach danych mam następujące informacje

(X1 , ,Xm ,δ ,T )

gdzie są funkcjami, wynosi 1, jeśli wystąpi zdarzenie docelowe, a 0 w przeciwnym razie, a jest datownikiem zdarzenia. W szczególności może brakować jeśli nie wystąpi żadne zdarzenie lub zostanie ustawiony czas zakończenia obserwacji.XiδTT

Chcę obliczyć indeks ryzyka dla każdego rekordu w moim zestawie danych.

Zastanawiałem się nad modelem klasyfikacji, który wykorzystuje funkcje do przewidywania klasy . Jednak ważne jest , aby : jeśli zdarzenie prawdopodobnie wystąpi wkrótce, ryzyko powinno być wyższe.XiδTδ

Właśnie dlatego analiza przeżycia powinna być odpowiednia dla tego problemu. Nie potrzebuję pełnego oszacowania ale tylko jeden indeks reprezentujący ryzyko dla pojedynczego rekordu.S(t)=P(T>t)

Średni czas przeżycia, który można obliczyć dla każdego rekordu, wydaje się dobrym wskaźnikiem ryzyka - im niższy, tym wyższe ryzyko.

Moje pytanie brzmi:

  1. Czy analiza przeżycia jest odpowiednia do moich celów?
  2. Jak mogę ocenić wydajność mojego modelu?

Na pytanie 2: Chciałbym na przykład użyć indeksu Harrella , ale nie jestem pewien, który przewidywany wynik zostanie wykorzystany do jego obliczenia. Z książki Harrella, Strategie modelowania regresji, strona 247:c

indeks [...] jest obliczana poprzez wszystkich możliwych par przedmiotów tak, że jeden przedmiot odpowiedzi, a druga nie. Wskaźnik jest proporcją takich par, w których osoba odpowiadająca ma wyższe przewidywane prawdopodobieństwo odpowiedzi niż osoba nieodpowiadająca.c

Jeśli analiza przeżycia okaże się właściwym wyborem, myślę, że powinno być łatwo zastosować jakąś standardową metodę do wprowadzenia zmiennych czasu .Xi(t)

Simone
źródło

Odpowiedzi:

3

Czy analiza przeżycia jest odpowiednia do moich celów?

Jedyną rzeczą, która sprawia, że ​​wydaje się to mniej przydatne do analizy przeżycia, jest:

... może brakować, jeśli nie było zdarzenia lub ustawiony czas zakończenia obserwacji.TT

Musisz znać ostatni okres, w którym dana osoba żyła w przypadku większości modeli. W przeciwnym razie powinien być prosty i mieć zastosowanie do analizy przeżycia. Np. Zagrożenie proporcjonalne Coxa z survival::coxphR lub modele parametryczne z survival::survreg.

Średni czas przeżycia, który można obliczyć dla każdego rekordu, wydaje się dobrym wskaźnikiem ryzyka - im niższy, tym wyższe ryzyko.

Tak, możesz użyć średniego czasu przeżycia lub po prostu predyktora liniowego dla dwóch wcześniej wspomnianych (klas) modeli.

Jak mogę ocenić wydajność mojego modelu?

indeks wydaje się być rozsądnym wyborem dla mnie jako „naturalne” uogólnienie AUC. Zauważ, że jest zaimplementowany w R z np .cHmisc::rcorr.cens

Benjamin Christoffersen
źródło