Intuicja dla skumulowanej funkcji hazardu (analiza przeżycia)

17

Próbuję uzyskać intuicję dla każdej z głównych funkcji w nauce aktuarialnej (szczególnie dla modelu proporcjonalnych zagrożeń Coxa). Oto co mam do tej pory:

  • f(x) : począwszy od godziny rozpoczęcia, rozkład prawdopodobieństwa, kiedy umrzesz.
  • F(x) : tylko rozkład skumulowany. W chwili jaki procent populacji będzie martwy?T
  • S(x) : . W chwili jaki procent populacji będzie żył?1F(x)T
  • h(x) : funkcja zagrożenia. W danym czasie , wciąż żyjących, można to wykorzystać do oszacowania, ilu ludzi umrze w następnym przedziale czasowym lub, jeśli w przedziale -> 0, „natychmiastowe” prawdopodobieństwo śmierci.T
  • H(x) : zagrożenie skumulowane. Brak pomysłu.

Jaka jest idea łączenia wartości zagrożenia, zwłaszcza gdy są one ciągłe? Jeśli użyjemy dyskretnego przykładu ze śmiertelnością w czterech porach roku, a funkcja hazardu wygląda następująco:

  • Od wiosny wszyscy żyją, a 20% umrze
  • Teraz w lecie spośród pozostałych 50% umrze
  • Jesienią spośród pozostałych 75% umrze
  • Ostatni sezon to zima. Z pozostałych 100% umrze

Zatem skumulowane zagrożenie wynosi 20%, 70%, 145%, 245%? Co to znaczy i dlaczego jest to przydatne?

Jon
źródło
1
Twoje powinny być lub odwrotnie. Tx
Glen_b
5
Jeśli chodzi o , masz błąd (chociaż jest to bardzo powszechne zamieszanie). Piszesz: „interwał-> 0,„ natychmiastowe ”prawdopodobieństwo śmierci”. Prawidłowe zestawienie byłoby „chwilowa śmierć stopa ”. To nie może być prawdopodobieństwo, ponieważ jest to prawdopodobieństwo podzielone przez ; ponadto może to być> 1. h(x)dt
Gung - Przywróć Monikę

Odpowiedzi:

6

Łączenie umierających proporcji nie powoduje skumulowanego ryzyka. Współczynnik ryzyka w czasie ciągłym jest warunkowym prawdopodobieństwem, że w bardzo krótkim okresie nastąpi zdarzenie:

h(t)=limΔt0P(t<Tt+Δt|T>t)Δt

Zagrożenie skumulowane to całkowanie (chwilowe) współczynnika ryzyka na przestrzeni wieków / czasu. To jak sumowanie prawdopodobieństw, ale ponieważ jest bardzo mała, prawdopodobieństwa te są również małymi liczbami (np. Wskaźnik ryzyka śmierci może wynosić około 0,004 w wieku około 30). Współczynnik ryzyka zależy od tego, czy zdarzenie nie miało miejsca przed , więc dla populacji może sumować się powyżej 1.Δtt

Możesz spojrzeć na tabelę śmiertelności ludzi, chociaż jest to dyskretna formuła czasowa i spróbować zgromadzić .mx

Jeśli używasz R, oto mały przykład przybliżenia tych funkcji na podstawie liczby zgonów w każdym rocznym przedziale wiekowym:

dx <-  c(3184L, 268L, 145L, 81L, 64L, 81L, 101L, 50L, 72L, 76L, 50L, 
         62L, 65L, 95L, 86L, 120L, 86L, 110L, 144L, 147L, 206L, 244L, 
         175L, 227L, 182L, 227L, 205L, 196L, 202L, 154L, 218L, 279L, 193L, 
         223L, 227L, 300L, 226L, 256L, 259L, 282L, 303L, 373L, 412L, 297L, 
         436L, 402L, 356L, 485L, 495L, 597L, 645L, 535L, 646L, 851L, 689L, 
         823L, 927L, 878L, 1036L, 1070L, 971L, 1225L, 1298L, 1539L, 1544L, 
         1673L, 1700L, 1909L, 2253L, 2388L, 2578L, 2353L, 2824L, 2909L, 
         2994L, 2970L, 2929L, 3401L, 3267L, 3411L, 3532L, 3090L, 3163L, 
         3060L, 2870L, 2650L, 2405L, 2143L, 1872L, 1601L, 1340L, 1095L, 
         872L, 677L, 512L, 376L, 268L, 186L, 125L, 81L, 51L, 31L, 18L, 
         11L, 6L, 3L, 2L)

x <- 0:(length(dx)-1) # age vector

plot((dx/sum(dx))/(1-cumsum(dx/sum(dx))), t="l", xlab="age", ylab="h(t)", 
     main="h(t)", log="y")
plot(cumsum((dx/sum(dx))/(1-cumsum(dx/sum(dx)))), t="l", xlab="age", ylab="H(t)", 
     main="H(t)")

Mam nadzieję że to pomoże.

jaskółka oknówka
źródło
Czy słusznie jest powiedzieć, że h (t) * dt jest prawdopodobieństwem wystąpienia zdarzenia w przedziale długości dt wokół t? dlatego wartość h (t) oznacza prawdopodobieństwo wystąpienia zdarzenia w ciągu 1 jednostki czasu wyśrodkowanej wokół t. Byłoby tak tylko w przypadku, gdy h (t) <= 1
crow
10

Książka „Wprowadzenie do analizy przeżycia za pomocą Staty” (wydanie drugie) autorstwa Mario Clevesa zawiera dobry rozdział na ten temat.

Rozdział o książkach Google można znaleźć na str. 13–15. Ale radziłbym przeczytać cały rozdział 2.

Oto krótki formularz:

  • „mierzy całkowitą kwotę ryzyka zakumulowanego do czasu t” (s. 8)
  • policz interpretację danych: „podaje, ile razy (matematycznie) spodziewalibyśmy się zaobserwować awarie [lub inne zdarzenia] w danym okresie, gdyby tylko zdarzenie awarii było powtarzalne” (s. 13)
jedenastoletni
źródło
5

Chciałbym Hazard przypuszczenie, że jest godny uwagi ze względu na jej stosowanie w działkach diagnostycznych:

h(x)=miβT.zh0(x)βzh0(x)logH.(x)=βT.z+H.0(x)logH.^(x)x

h(x)=αθ(xθ)α-1θαlogH.(x)=αlogx-αlogθlogH.^(x)logxα^-α^logθ^, pod warunkiem, że założenie Weibulla jest prawidłowe. I oczywiście nachylenie w pobliżu 1 sugeruje, że model wykładniczy może pasować.

H.(x)x

Scortchi - Przywróć Monikę
źródło
3

Parafrazując to, co mówi @Scortchi, chciałbym podkreślić, że funkcja kumulatywnego hazardu nie ma dobrej interpretacji i jako taka nie próbowałabym używać jej jako sposobu interpretacji wyników; powiedzenie badaczowi niebędącemu statystyką, że skumulowane zagrożenia są różne, najprawdopodobniej da odpowiedź „mm-hm”, a wtedy już nigdy nie zapytają o przedmiot, i to nie w dobry sposób.

Jednak skumulowana funkcja hazardu okazuje się bardzo przydatna matematycznie, na przykład jako ogólny sposób powiązania funkcji hazardu z funkcją przetrwania. Dlatego ważne jest, aby wiedzieć, czym jest skumulowane zagrożenie i jak można je wykorzystać w różnych metodach statystycznych. Ale ogólnie rzecz biorąc, nie sądzę, że szczególnie przydatne jest myślenie o rzeczywistych danych w kategoriach skumulowanych zagrożeń.

Cliff AB
źródło