Dlaczego zakłada się, że czasy przeżycia rozkładają się wykładniczo?

36

Uczę się analizy przeżycia z tego postu na UCLA IDRE i potknąłem się w sekcji 1.2.1. Samouczek mówi:

... jeśli wiadomo, że czasy przeżycia są rozkładane wykładniczo , to prawdopodobieństwo zaobserwowania czasu przeżycia ...

Dlaczego zakłada się, że czasy przeżycia rozkładają się wykładniczo? Wydaje mi się to bardzo nienaturalne.

Dlaczego zwykle nie dystrybuowany? Załóżmy, że badamy długość życia jakiegoś stworzenia pod pewnymi warunkami (powiedzmy liczbę dni), czy powinno ono być bardziej skoncentrowane wokół pewnej liczby z pewną wariancją (powiedzmy 100 dni z wariancją 3 dni)?

Jeśli chcemy, aby czas był ściśle dodatni, dlaczego nie zrobić rozkładu normalnego z wyższą średnią i bardzo małą wariancją (prawie nie będzie szansy na uzyskanie liczby ujemnej).

Haitao Du
źródło
9
Heurystycznie nie mogę myśleć o rozkładzie normalnym jako intuicyjnym sposobie modelowania czasu awarii. Nigdy nie pojawia się w żadnej z moich zastosowanych prac. Zawsze są przekrzywione bardzo dokładnie w prawo. Myślę, że normalne rozkłady powstają heurystycznie jako kwestia średnich, podczas gdy czasy przeżycia pojawiają się heurystycznie jako kwestia ekstremów, takich jak efekt ciągłego zagrożenia przykładanego do sekwencji składowych równoległych lub szeregowych.
AdamO
6
Zgadzam się z @AdamO w sprawie ekstremalnych rozkładów nieodłącznych dla przetrwania i czasu do awarii. Jak zauważyli inni, wykładnicze założenia mają tę zaletę, że są wykonalne. Największym problemem z nimi jest dorozumiane założenie o stałej szybkości rozkładu. Inne formy funkcjonalne są możliwe i występują jako standardowe opcje w zależności od oprogramowania, np. Uogólniona gamma. Testy poprawności dopasowania można wykorzystać do testowania różnych form funkcjonalnych i założeń. Najlepszym tekstem na temat modelowania przeżycia jest Analiza przetrwania Paula Allisona przy użyciu SAS, wydanie 2. Zapomnij o SAS-to doskonała recenzja
Mike Hunter
8
Chciałbym zauważyć, że pierwszym słowem w twoim cytacie jest „ jeśli
Fomite,

Odpowiedzi:

41

Rozkłady wykładnicze są często stosowane do modelowania czasów przeżycia, ponieważ są to najprostsze rozkłady, które można wykorzystać do scharakteryzowania danych dotyczących przeżycia / niezawodności. Wynika to z tego, że są one bez pamięci, a zatem funkcja hazardu jest stałym czasem w / r / t, co czyni analizę bardzo prostą. Tego rodzaju założenie może mieć zastosowanie na przykład w przypadku niektórych rodzajów elementów elektronicznych, takich jak wysokiej jakości układy scalone. Jestem pewien, że możesz wymyślić więcej przykładów, w których można bezpiecznie założyć, że wpływ czasu na zagrożenie jest znikomy.

Należy jednak zauważyć, że w wielu przypadkach nie byłoby to właściwe założenie. Normalne rozkłady mogą być w niektórych sytuacjach w porządku, choć oczywiście negatywne czasy przeżycia są bez znaczenia. Z tego powodu często brane są pod uwagę rozkłady logarytmiczne. Inne popularne opcje to Weibull, najmniejsza wartość ekstremalna, największa wartość ekstremalna, logistyka itp. Rozsądny wybór modelu byłby uzależniony od doświadczenia na danym obszarze i wykreślenia prawdopodobieństwa . Możesz oczywiście rozważyć modelowanie nieparametryczne.

Dobrym odniesieniem do klasycznego modelowania parametrycznego w analizie przeżycia są: William Q. Meeker i Luis A. Escobar (1998). Metody statystyczne dla danych o niezawodności , Wiley

klumbard
źródło
czy mógłbyś bardziej szczegółowo rozwinąć zagadnienie „funkcja hazardu to stały czas w / r / t”?
Haitao Du
4
@ hxd1011: Prawdopodobnie przez „funkcję hazardu” autor odnosi się do funkcji podanej przez r X ( t ) = f X ( t ) / ˉ F X ( t ) , gdzie f X jest pdf X i ˉ F X jest ogonem X ( ˉ F X ( t ) = 1 - F X ( t ) = trXrX(t)=fX(t)/F¯X(t)fXXF¯XX ). Jest to również nazywane wskaźnikiemawaryjności. Obserwacja jest taka, że ​​dla Exp ( λ ) wskaźnik awaryjności wynosi r ( t ) = ( λ e - λ t ) / ( e - λ t ) = λ , który jest stały. Co więcej, nietrudno wykazać, żetylkorozkład wykładniczy ma tę właściwość. F¯X(t)=1FX(t)=tfX(x)dxExp(λ)r(t)=(λeλt)/(eλt)=λ
wchargin
22

Aby dodać odrobinę matematycznej intuicji stojącej za tym, jak wykładniki pojawiają się w rozkładach przeżycia:

Gęstość prawdopodobieństwa zmiennej przeżycia wynosi , gdzie h ( t ) jest aktualnym zagrożeniem (ryzyko, że osoba „umrze” w tym dniu), a S ( t ) jest prawdopodobieństwo, że dana osoba przeżyła do t . S ( t ) można rozszerzyć jako prawdopodobieństwo, że dana osoba przeżyła dzień 1 i przeżyła dzień 2, ... do dnia t . Następnie: P ( s u r v if(t)=h(t)S(t)h(t)S(t)tS(t)tP ( s U r V i V e d d r y 1 , 2 , . . . , t ) = ( 1 - H ( t ) ) T Z stałe i małe zagrożenie λ , możemy użyć: e - λ1 -

P(survived day t)=1h(t)
P(survived days 1,2,...,t)=(1h(t))t
λ do przybliżenia S ( t ) jako po prostu ( 1 - λ ) te - λ t , a gęstość prawdopodobieństwa wynosi wtedy f ( t ) = h ( t ) S ( t ) = λ e - λ t
mi-λ1-λ
S.(t)
(1-λ)tmi-λt
fa(t)=h(t)S.(t)=λmi-λt

Oświadczenie: nie jest to w żaden sposób próba prawidłowego wyprowadzenia pliku pdf - właśnie doszedłem do wniosku, że to zgrabny zbieg okoliczności i z zadowoleniem przyjmuję wszelkie komentarze na temat tego, dlaczego jest to poprawne / niepoprawne.

EDYCJA: zmieniłem przybliżenie na poradę przez @SamT, patrz komentarze do dyskusji.

juod
źródło
1
+1 pomogło mi to lepiej zrozumieć właściwości rozkładu wykładniczego.
Haitao Du
1
S.(t)=...tλt(1+x/n)n mixx=o(n)limt(1-λt/t)t=mi-λtt
tλ
1
λλt
(1+x/n)nmix
λ
mi-λt=(mi-λ)t(1-λ)t.
λ=λt/t
mi-λt(1-λt/t)t.
Po zastosowaniu może się wydawać, że jest to nieco wybredne, ale chodzi o to, że rozumowanie było nieprawidłowe; podobne nieprawidłowe kroki mogą nie być prawdą. Oczywiście, jak ktoś złożył podanie, możesz z przyjemnością zrobić ten krok, w większości przypadków zachowa się i nie martw się o szczegóły! Jako ktoś, kto robi czyste matematyki, nie jest to dla mnie pytaniem, ale rozumiem, że potrzebujemy zarówno czystej, jak i stosowanej! (A zwłaszcza w statystykach dobrze jest nie zagłębiać się w czystą technikę.)
Sam T
11

Prawie na pewno będziesz chciał przyjrzeć się inżynierii niezawodności i prognozom do dokładnych analiz czasów przeżycia. W ramach tego często stosuje się kilka dystrybucji:

Rozkład Weibulla (lub „wanny”) jest najbardziej złożony. Uwzględnia trzy rodzaje trybów awarii, które dominują w różnym wieku: śmiertelność niemowląt (w przypadku wczesnych uszkodzeń uszkodzonych części), awarie indukowane (w których części pękają losowo przez cały okres eksploatacji systemu) i zużywają się (w przypadku awarii części posługiwać się). Używany plik PDF ma wygląd „\ __ /”. Szczególnie w przypadku niektórych układów elektronicznych możesz usłyszeć o czasach „wypalenia”, co oznacza, że ​​te części zostały już uruchomione przez część krzywej „\”, a wczesne awarie zostały wyeliminowane (idealnie). Niestety analiza Weibulla szybko się psujejeśli twoje części nie są jednorodne (w tym środowisko użytkowania!) lub jeśli używasz ich w różnych skalach czasowych (np. jeśli niektóre części wchodzą bezpośrednio do użytku, a inne przechodzą najpierw w składzie, wskaźnik „losowych awarii” będzie być znacząco różne, ze względu na połączenie dwóch pomiarów czasu (godzin pracy vs. godzin użytkowania).

Normalne rozkłady są prawie zawsze błędne. Każdy rozkład normalny ma wartości ujemne, brak rozkładu niezawodności. Czasami mogą być przydatnym przybliżeniem, ale w czasach, w których jest to prawdą, prawie zawsze patrzysz na logarytm normalny, więc równie dobrze możesz po prostu użyć właściwej dystrybucji. Rozkłady logarytmiczno-normalne są poprawnie stosowane, gdy występują jakieś zużyte i pomijalne przypadkowe awarie i w żadnych innych okolicznościach! Podobnie jak rozkład normalny, są wystarczająco elastyczne, aby zmusić je do dopasowania większości danych; musisz oprzeć się temu pragnieniu i sprawdzić, czy okoliczności mają sens.

Wreszcie rozkład wykładniczy to prawdziwy koń roboczy. Często nie wiesz, jak stare są części (na przykład, gdy części nie są serializowane i mają różne czasy, kiedy weszły do ​​użytku), więc nie ma żadnej dystrybucji opartej na pamięci. Ponadto wiele części ma tak długi czas zużycia, że ​​jest całkowicie zdominowany przez awarie indukowane lub poza użytecznym przedziałem czasowym analizy. Chociaż może nie być tak doskonałym modelem jak inne dystrybucje, po prostu nie przejmuje się rzeczami, które je potkną. Jeśli masz MTTF (czas zaludnienia / liczba awarii), masz rozkład wykładniczy. Ponadto nie potrzebujesz żadnego fizycznego zrozumienia swojego systemu. Możesz po prostu wykonać wykładnicze szacunkina podstawie zaobserwowanej części MTTF (przy założeniu wystarczająco dużej próbki) i wyszły całkiem nieźle. Jest również odporny na przyczyny: jeśli co drugi miesiąc ktoś się nudzi i gra w krokieta z pewną rolą, dopóki się nie zepsuje, wykłada to wykładnik (wtacza się w MTTF). Funkcja wykładnicza jest również na tyle prosta, że ​​można wykonać obliczenia z tyłu koperty dla dostępności systemów nadmiarowych i tym podobnych, co znacznie zwiększa jego użyteczność.

wolna od fektyn Monica
źródło
3
To dobra odpowiedź, ale zauważ, że rozkład Weibulla nie jest „najbardziej złożonym” rozkładem parametrycznym dla modeli przeżycia. Nie jestem pewien, czy może istnieć coś takiego, ale na pewno w stosunku do Weibulla istnieje uogólniony rozkład gamma i uogólniony rozkład F , z których oba mogą traktować Weibulla jako szczególny przypadek, ustawiając parametry na 0
gung - Przywróć Monikę
Jest to najbardziej skomplikowana metoda powszechnie stosowana w inżynierii niezawodności (pierwszy akapit :) Nie zgadzam się z twoją tezą, ale też nigdy nie widziałem żadnej faktycznie wykorzystanej (zapisy dotyczące tego, jak można je wykorzystać, tak. Rzeczywista implementacja, nie )
fektyna - za darmo Monica
9

Aby odpowiedzieć na twoje wyraźne pytanie, nie możesz użyć rozkładu normalnego do przeżycia, ponieważ rozkład normalny zmierza do ujemnej nieskończoności, a przeżycie jest ściśle nieujemne. Co więcej, nie sądzę, że to prawda, że ​​„czasy przetrwania są wykładniczo rozkładane” przez kogokolwiek w rzeczywistości.

zt

>1<1

Najczęściej rozkłady przeżycia są złożone i nie są dobrze dopasowane przez żaden nazwany rozkład. Ludzie zwykle nawet nie zawracają sobie głowy próbą ustalenia, jaka to może być dystrybucja. To właśnie sprawia, że ​​model proporcjonalnych hazardów Coxa jest tak popularny: jest półparametryczny, ponieważ ryzyko linii podstawowej można pozostawić całkowicie nieokreślone, ale reszta modelu może być parametryczna pod względem związku z nieokreśloną linią bazową.

gung - Przywróć Monikę
źródło
4
„Co więcej, nie sądzę, że to prawda, że„ czasy przetrwania są wykładniczo rozkładane „przez każdego w rzeczywistości”. Odkryłem, że jest to dość powszechne w epidemiologii, zwykle domyślnie.
Fomite,
1
@gung, czy mógłbyś uprzejmie wyjaśnić - jest
Gaurav Singhal
7

Część ekologii może pomóc odpowiedzieć na pytanie „dlaczego” kryjące się za tym pytaniem.

Powodem zastosowania rozkładu wykładniczego do modelowania przeżycia są strategie życiowe zaangażowane w organizmy żyjące w naturze. Zasadniczo istnieją dwie skrajności w odniesieniu do strategii przetrwania z miejscem na środkowy grunt.

Oto obraz, który ilustruje, co mam na myśli (dzięki uprzejmości Khan Academy):

https://www.khanacademy.org/science/biology/ecology/population-ecology/a/life-tables-survivorship-age-sex-structure

Na tym wykresie przedstawiono osobniki, które przeżyły na osi Y, oraz „procent maksymalnej oczekiwanej długości życia” (inaczej przybliżony wiek osoby) na osi X.

Typ I to ludzie, którzy modelują organizmy, które wyjątkowo dbają o swoje potomstwo, zapewniając bardzo niską śmiertelność niemowląt. Często gatunki te mają bardzo mało potomstwa, ponieważ każdy z nich wymaga dużej ilości czasu i wysiłku rodziców. Większość tego, co zabija organizmy typu I, to powikłania, które pojawiają się w starszym wieku. Strategia tutaj to wysoka inwestycja w wysoką wypłatę w długim, produktywnym życiu, nawet kosztem zwykłych liczb.

I odwrotnie, typ III jest modelowany przez drzewa (ale może to być również plankton, koralowce, tarło ryb, wiele rodzajów owadów itp.), W których rodzic inwestuje stosunkowo niewiele w każde potomstwo, ale produkuje ich mnóstwo w nadziei, że kilka przetrwać. Strategia ta polega na „opryskaniu i módlcie się” w nadziei, że podczas gdy większość potomstwa zostanie stosunkowo szybko zniszczona przez drapieżniki korzystające z łatwych zbiorów, nieliczne, które przetrwają wystarczająco długo, aby rosnąć, będą coraz trudniejsze do zabicia, ostatecznie stanie się (praktycznie) niemożliwe zjedzony. Przez cały czas osobniki te rodzą ogromną liczbę potomstwa, mając nadzieję, że kilka z nich przetrwa również w swoim wieku.

Typ II to średnia strategia z umiarkowanymi inwestycjami rodziców na rzecz umiarkowanego przeżycia w każdym wieku.

Miałem profesora ekologii, który tak to ujął:

„Typ III (drzewa) to„ Krzywa nadziei ”, ponieważ im dłużej jednostka przeżyje, tym bardziej prawdopodobne jest, że przetrwa. Tymczasem typ I (ludzie) jest„ Krzywą rozpaczy ”, ponieważ im dłużej żyjesz, tym bardziej prawdopodobne jest, że umrzesz. ”

Kofeina Koneser
źródło
Jest to interesujące, ale należy pamiętać, że dla ludzi, przed współczesną medycyną (i nadal w niektórych miejscach na świecie) śmiertelność niemowląt jest bardzo wysoka. Wyjściowe przeżycie człowieka jest często modelowane z „ zagrożeniem w wannie ”.
gung - Przywróć Monikę
@gung Oczywiście, jest to szerokie uogólnienie i istnieją różnice w ludziach w różnych regionach i okresach. Główna różnica jest wyraźniejsza, gdy porównujesz skrajności, tj. Zachodnie rodziny ludzkie (~ 2,5 dziecka na parę, z których większość nie umiera w niemowlęctwie) w porównaniu z koralowcami lub rybami tarłowymi (miliony jaj uwalnianych na cykl kojarzenia, z których większość umrzeć z powodu zjedzenia, głodu, niebezpiecznej chemii wody lub po prostu nie udania się do miejsca zamieszkania)
CaffeineConnoisseur
1
Chociaż jestem za wyjaśnieniami z ekologii, zauważę, że takie założenia dotyczą również takich dysków twardych i silników lotniczych.
Fomite,
6

To nie odpowiada bezpośrednio na pytanie, ale myślę, że bardzo ważne jest, aby to zanotować i nie pasuje do żadnego komentarza.

Podczas gdy rozkład wykładniczy ma bardzo ładną teoretyczną pochodną, ​​a zatem zakładając, że wytworzone dane są zgodne z mechanizmami przyjętymi w rozkładzie wykładniczym, powinien teoretycznie dać optymalne oszacowania, w praktyce jeszcze nie natknąłem się na zbiór danych, w którym rozkład wykładniczy daje nawet blisko do akceptowalnych wyników (oczywiście zależy to od typów danych, które analizowałem, prawie wszystkich danych biologicznych). Na przykład, właśnie spojrzałem na dopasowanie modelu z różnymi dystrybucjami, używając pierwszego zestawu danych, jaki mogłem znaleźć w moim pakiecie R. W celu sprawdzenia modelu rozkładu linii podstawowej zwykle porównujemy z modelem półparametrycznym. Spójrz na wyniki.

Krzywe przeżycia

Z rozkładu Weibulla, logistyki i logarytmu normalnego nie ma absolutnie wyraźnego zwycięzcy pod względem odpowiedniego dopasowania. Ale jest wyraźny przegrany: rozkład wykładniczy! Z mojego doświadczenia wynika, że ​​ta wielkość niedopasowania nie jest wyjątkowa, ale raczej normą dla rozkładu wykładniczego.

Czemu? Ponieważ rozkład wykładniczy jest rodziną jednoparametrową. Zatem jeśli podam średnią tego rozkładu, określiłem wszystkie pozostałe momenty tego rozkładu. Te pozostałe rodziny to dwie rodziny parametrów. Dlatego w tych rodzinach jest znacznie większa elastyczność w dostosowywaniu się do samych danych.

Teraz pamiętaj, że rozkład Weibulla ma rozkład wykładniczy jako szczególny przypadek (tj. Gdy parametr kształtu = 1). Więc nawet jeśli dane są rzeczywiście wykładnicze, dodajemy tylko nieco więcej szumu do naszych oszacowań, stosując rozkład Weibulla nad rozkładem wykładniczym. Jako taki, prawie nigdy nie zalecałbym używania rozkładu wykładniczego do modelowania rzeczywistych danych (i jestem ciekawy, czy ktoś z czytelników ma przykład, kiedy to naprawdę dobry pomysł).

Cliff AB
źródło
1
Nie jestem przekonany do tej odpowiedzi: 1) „przy użyciu pierwszego zestawu danych, który mogłem znaleźć w moim pakiecie R”… Naprawdę? ... na stats.stackexchange? Jedna losowa próbka i wyciągamy ogólne wnioski? 1b) W przypadku modeli, w których czas awarii zwykle rozkłada się wokół określonej wartości (np. Życie ludzi), wyraźnie bardziej odpowiednie są rozkłady takie jak Gamma, Weibull itp .; gdy zdarzenia są równie prawdopodobne, rozkład wykładniczy jest bardziej odpowiedni. Założę się, że powyższy „pierwszy zestaw danych” jest pierwszego rodzaju. 2) Wszystkie pozostałe modele mają 2 parametry, do porównania modeli należy użyć np. Współczynnika Bayesa.
Luca Citi,
2
@LucaCiti: „pierwszy zestaw danych w moim pakiecie R” oznacza pierwszy zestaw danych w pakiecie R, który opublikowałem (icenReg). Zauważyłem, że moje doświadczenie z rozkładem wykładniczym zawsze słabo dopasowanym zależało od rodzaju analizowanych danych; prawie wyłącznie dane biologiczne. Wreszcie, jak powiedziałem na końcu, jestem bardzo ciekawy, jakie są prawdziwe przykłady zastosowania, w których istnieje przekonujący powód, aby użyć rozkładu wykładniczego, więc jeśli masz taki, podziel się.
Cliff AB
1
Scenariusz, w którym możesz chcieć użyć rozkładu wykładniczego, miałby miejsce, gdy (a) miałeś wiele danych historycznych, które pokazały, że dane naprawdę były dobrze przybliżone z rozkładem wykładniczym i (b) musiałeś wyciągać wnioski z małych próbek ( tj. n <10). Ale nie znam takich prawdziwych aplikacji. Może w jakiś problem z kontrolą jakości produkcji?
Cliff AB
1
Cześć Cliff, dziękuję za poświęcenie czasu na odpowiedź na mój komentarz. Myślę, że z grubsza mówiąc, rozkład taki jak Weibull pasuje do lepszych sytuacji odpowiadających pytaniom takim jak: „jaki jest czas życia pojedynczego x w mojej próbce” lub „kiedy neuron x znowu wystrzeli” lub „kiedy firefly x znowu błyśnie „. I odwrotnie, rozkład wykładniczy modeluje pytania takie jak „kiedy w mojej populacji ma nastąpić kolejna śmierć”, „kiedy następny neuron zamierza wystrzelić” lub „kiedy błyskawica w roju będzie błyskać”
Luca Citi
@LucaCiti; ha, właśnie zrozumiałem, że twoje wcześniejsze poke było żartem z wnioskowania na podstawie n = 1. Nie wiem, jak za tym tęskniłem za pierwszym razem. W mojej obronie, jeśli mamy teorię, która mówi, że estymator powinien być asymptotycznie normalny, a jednocześnie jest o 4+ odchylenia standardowe od innych asymptotycznie normalnych szacunków, to możemy! Ale z całą powagą nie przekonał mnie jeden spisek, ale konsekwentnie widzę ten sam poziom odchylenia. Mogę jednak zostać zablokowany, jeśli spamuję ponad 20 wątków złego wykładniczego dopasowania.
Cliff AB
4

Kolejny powód, dla którego rozkład wykładniczy często pojawia się w celu modelowania odstępu między zdarzeniami, jest następujący.

Powszechnie wiadomo, że przy pewnych założeniach suma dużej liczby niezależnych zmiennych losowych będzie zbliżona do rozkładu Gaussa. Podobne twierdzenie dotyczy procesów odnawiania , tj. Modeli stochastycznych dla zdarzeń, które występują losowo w czasie z interwałami między zdarzeniami IID. W rzeczywistości twierdzenie Palm-Khintchine'a stwierdza, że ​​superpozycja wielu (niekoniecznie poissońskich) procesów odnawiania zachowuje się asymptotycznie jak proces Poissona . Interwały między zdarzeniami procesu Poissona są wykładniczo rozłożone.

Luca Citi
źródło
3

tl; dr - Rozkład wykładniczy jest równoznaczny z założeniem, że osoby umierają w takim samym czasie jak inne.

Pochodzenie

  1. Załóżmy, że żywa osoba może równie dobrze umrzeć w danym momencie, jak w każdej innej chwili.

  2. Więc wskaźnik śmierci -reP.ret jest proporcjonalny do populacji, P..

-reP.ret  P.
  1. Rozwiązywanie na WolframAlpha pokazuje:

P.(t)=do1mi-t

Tak więc populacja ma rozkład wykładniczy.

Notatka matematyczna

Powyższa matematyka jest redukcją równania różniczkowego zwyczajnego pierwszego rzędu (ODE) . Zwykle rozwiązalibyśmy równieżdo0zauważając warunek brzegowy, że populacja zaczyna się od określonej wartości,P.(t0)w momencie rozpoczęcia t0.

Następnie równanie staje się:

P.(t)=mi-tP.(t0).

Sprawdzenie autentyczności

Rozkład wykładniczy zakłada, że ​​ludzie w populacji umierają w tym samym tempie z czasem. W rzeczywistości śmiertelność będzie się różnić w przypadku populacji skończonych.

Opracowanie lepszych rozkładów wymaga stochastycznych równań różniczkowych . Zatem nie możemy powiedzieć, że istnieje stałe prawdopodobieństwo śmierci; raczej musimy opracować rozkład prawdopodobieństwa śmierci każdego człowieka w danym momencie, a następnie połączyć te różne drzewa możliwości razem dla całej populacji, a następnie rozwiązać to równanie różniczkowe w czasie.

Nie mogę sobie przypomnieć, że widziałem to wcześniej w jakiejkolwiek sieci, więc prawdopodobnie na to nie wpadniesz; ale to kolejny etap modelowania, jeśli chcesz poprawić rozkład wykładniczy.

Nat
źródło
3

(Zwróć uwagę, że w cytowanej części stwierdzenie było warunkowe; samo zdanie nie zakładało wykładniczego przetrwania, wyjaśniało konsekwencję takiego postępowania. Niemniej jednak założenie, że przetrwanie wykładnicze jest powszechne, warto więc odpowiedzieć na pytanie „dlaczego wykładniczy ”i„ dlaczego nie normalny ”- ponieważ pierwszy jest już dość dobrze omówiony, skupię się bardziej na drugiej rzeczy)

Normalnie rozłożone czasy przeżycia nie mają sensu, ponieważ mają niezerowe prawdopodobieństwo, że czas przeżycia będzie ujemny.

Jeśli następnie ograniczysz swoje rozważania do normalnych rozkładów, które prawie nie mają szansy być bliskie zeru, nie możesz modelować danych o przeżyciu, które mają uzasadnione prawdopodobieństwo krótkiego czasu przeżycia:

rozkłady czasu przeżycia - normalna średnia 100 sd 10 vs konkretny rozkład ze średnią 100 i sd 42, który ma ponad 20% prawdopodobieństwo czasów przeżycia od 0 do 50

Może raz na jakiś czas czasy przeżycia, które prawie nie mają szans na krótkie czasy przeżycia, byłyby rozsądne, ale potrzebujesz rozkładów, które mają sens w praktyce - zwykle obserwujesz krótkie i długie czasy przeżycia (i cokolwiek pomiędzy), zwykle z wypaczeniem rozkład czasów przeżycia). Niezmodyfikowany rozkład normalny rzadko będzie przydatny w praktyce.

[ Skrócona normalna może częściej być rozsądnym przybliżonym przybliżeniem niż normalna, ale inne rozkłady często będą lepsze.]

Stałe ryzyko wykładnicze jest czasem rozsądnym przybliżeniem czasów przeżycia. Na przykład, jeśli „zdarzenia losowe”, takie jak wypadek, mają znaczący wpływ na śmiertelność, to przeżycie wykładnicze będzie działać całkiem dobrze. (Na przykład wśród populacji zwierząt czasami zarówno drapieżnictwo, jak i choroba mogą zachowywać się w przybliżeniu jak przypadek, pozostawiając coś w rodzaju wykładniczej jako rozsądne pierwsze przybliżenie czasów przeżycia).


Jedno dodatkowe pytanie związane ze ściętą normalną: jeśli normalna nie jest odpowiednia, dlaczego nie normalna do kwadratu (chi sq z df 1)?

Rzeczywiście może to być trochę lepsze ... ale zauważ, że odpowiadałoby to nieskończonemu zagrożeniu przy 0, więc tylko czasami byłoby przydatne. Chociaż może modelować przypadki o bardzo wysokim odsetku bardzo krótkich czasów, ma odwrotny problem polegający na tym, że jest w stanie modelować przypadki o typowo znacznie krótszym niż przeciętne przeżyciu (25% czasów przeżycia jest poniżej 10,15% średniego czasu przeżycia i połowa czasów przeżycia jest mniejsza niż 45,5% średniej; to znaczy mediana przeżycia jest mniejsza niż połowa średniej).

Spójrzmy na skalowane χ12) (tj. gamma z parametrem kształtu 12)):

Wykres podobny do wcześniejszego, ale także z gęstością wariacji, która jest 100 razy kwadratem chi (1);  ma wysoki pik przy 0 i bardzo ciężki ogon - średnia wynosi 100, ale sd wynosi około 141, a mediana około 45.

[Może jeśli zsumujesz dwa z nich χ12) zmienia się ... a może jeśli uważasz, że jest niecentralny χ2)dostalibyście odpowiednie możliwości. Poza wykładniczym, do powszechnych wyborów rozkładów parametrycznych dla czasów przeżycia należą Weibull, lognormal, gamma, log-logistic i wiele innych ... zauważ, że Weibull i gamma uwzględniają wykładniczy jako szczególny przypadek]

Glen_b - Przywróć Monikę
źródło
dzięki, czekam na twoją odpowiedź od wczoraj :). Jedno dodatkowe pytanie związane ze ściętą normalną: jeśli normalna nie jest odpowiednia, dlaczego nie normalna do kwadratu (chi sq z df 1)?
Haitao Du
Rzeczywiście, może to być trochę lepsze ... ale zauważ, że odpowiadałoby to nieskończonemu zagrożeniu przy 0 - więc tylko czasami byłoby przydatne. Ma odwrotny problem polegający na tym, że modeluje tylko przypadki, w których przeżycie jest zwykle znacznie krótsze niż przeciętne (25% czasów przeżycia jest poniżej 10,15% średniego czasu przeżycia, a połowa czasów przeżycia jest mniejsza niż 45,5% średniej). Może jeśli sumujesz dwa z nichχ12)zmienia się, że możesz uzyskać mniej zaskakującą funkcję hazardu. . .; P
Glen_b
jeszcze raz dziękuję za wykształcenie moją intuicję za rzeczami. Widziałem zbyt wiele samouczków na poziomie przepisu i ludzi robiących rzeczy, nie wiedząc dlaczego. CV to świetne miejsce do nauki.
Haitao Du
1

Jeśli chcemy, aby czas był ściśle dodatni, dlaczego nie zrobić rozkładu normalnego z wyższą średnią i bardzo małą wariancją (prawie nie będzie szansy na uzyskanie liczby ujemnej).

Dlatego

  1. które nadal ma niezerowe prawdopodobieństwo bycia ujemnym, więc nie jest to ściśle pozytywne;

  2. średnia i wariancja to coś, co można zmierzyć na podstawie populacji, którą próbujesz wymodelować. Jeśli twoja populacja ma średnią 2 i wariancję 1 i modelujesz ją z rozkładem normalnym, rozkład ten będzie miał masę zasadniczą poniżej zera; jeśli modelujesz go z rozkładem normalnym ze średnią 5 i wariancją 0,1, twój model ma oczywiście bardzo odmienne właściwości od rzeczy, którą ma modelować.

Rozkład normalny ma określony kształt, który jest symetryczny względem średniej. Jedynym sposobem dostosowania kształtu jest przesunięcie go w prawo i w lewo (zwiększenie lub zmniejszenie średniej) lub zwiększenie lub zmniejszenie rozproszenia (zwiększenie lub zmniejszenie wariancji). Oznacza to, że jedynym sposobem na uzyskanie rozkładu normalnego, w którym większość masy jest między dwa a dziesięć, a tylko niewielka ilość masy jest poniżej zera, musisz ustawić średnią na, powiedzmy, sześć (środek zakresu ) i ustawić wariancję na tyle małą, aby tylko niewielka część próbek była ujemna. Ale wtedy prawdopodobnie przekonasz się, że większość twoich próbek to 5, 6 lub 7, podczas gdy powinieneś mieć całkiem dużo 2, 3, 4, 8, 9 i 10.

David Richerby
źródło