Uczę się analizy przeżycia z tego postu na UCLA IDRE i potknąłem się w sekcji 1.2.1. Samouczek mówi:
... jeśli wiadomo, że czasy przeżycia są rozkładane wykładniczo , to prawdopodobieństwo zaobserwowania czasu przeżycia ...
Dlaczego zakłada się, że czasy przeżycia rozkładają się wykładniczo? Wydaje mi się to bardzo nienaturalne.
Dlaczego zwykle nie dystrybuowany? Załóżmy, że badamy długość życia jakiegoś stworzenia pod pewnymi warunkami (powiedzmy liczbę dni), czy powinno ono być bardziej skoncentrowane wokół pewnej liczby z pewną wariancją (powiedzmy 100 dni z wariancją 3 dni)?
Jeśli chcemy, aby czas był ściśle dodatni, dlaczego nie zrobić rozkładu normalnego z wyższą średnią i bardzo małą wariancją (prawie nie będzie szansy na uzyskanie liczby ujemnej).
źródło
Odpowiedzi:
Rozkłady wykładnicze są często stosowane do modelowania czasów przeżycia, ponieważ są to najprostsze rozkłady, które można wykorzystać do scharakteryzowania danych dotyczących przeżycia / niezawodności. Wynika to z tego, że są one bez pamięci, a zatem funkcja hazardu jest stałym czasem w / r / t, co czyni analizę bardzo prostą. Tego rodzaju założenie może mieć zastosowanie na przykład w przypadku niektórych rodzajów elementów elektronicznych, takich jak wysokiej jakości układy scalone. Jestem pewien, że możesz wymyślić więcej przykładów, w których można bezpiecznie założyć, że wpływ czasu na zagrożenie jest znikomy.
Należy jednak zauważyć, że w wielu przypadkach nie byłoby to właściwe założenie. Normalne rozkłady mogą być w niektórych sytuacjach w porządku, choć oczywiście negatywne czasy przeżycia są bez znaczenia. Z tego powodu często brane są pod uwagę rozkłady logarytmiczne. Inne popularne opcje to Weibull, najmniejsza wartość ekstremalna, największa wartość ekstremalna, logistyka itp. Rozsądny wybór modelu byłby uzależniony od doświadczenia na danym obszarze i wykreślenia prawdopodobieństwa . Możesz oczywiście rozważyć modelowanie nieparametryczne.
Dobrym odniesieniem do klasycznego modelowania parametrycznego w analizie przeżycia są: William Q. Meeker i Luis A. Escobar (1998). Metody statystyczne dla danych o niezawodności , Wiley
źródło
Aby dodać odrobinę matematycznej intuicji stojącej za tym, jak wykładniki pojawiają się w rozkładach przeżycia:
Gęstość prawdopodobieństwa zmiennej przeżycia wynosi , gdzie h ( t ) jest aktualnym zagrożeniem (ryzyko, że osoba „umrze” w tym dniu), a S ( t ) jest prawdopodobieństwo, że dana osoba przeżyła do t . S ( t ) można rozszerzyć jako prawdopodobieństwo, że dana osoba przeżyła dzień 1 i przeżyła dzień 2, ... do dnia t . Następnie: P ( s u r v if(t)=h(t)S(t) h(t) S(t) t S(t) t P ( s U r V i V e d d r y 1 , 2 , . . . , t ) = ( 1 - H ( t ) ) T
Z stałe i małe zagrożenie λ , możemy użyć:
e - λ ≈ 1 -
Oświadczenie: nie jest to w żaden sposób próba prawidłowego wyprowadzenia pliku pdf - właśnie doszedłem do wniosku, że to zgrabny zbieg okoliczności i z zadowoleniem przyjmuję wszelkie komentarze na temat tego, dlaczego jest to poprawne / niepoprawne.
EDYCJA: zmieniłem przybliżenie na poradę przez @SamT, patrz komentarze do dyskusji.
źródło
Prawie na pewno będziesz chciał przyjrzeć się inżynierii niezawodności i prognozom do dokładnych analiz czasów przeżycia. W ramach tego często stosuje się kilka dystrybucji:
Rozkład Weibulla (lub „wanny”) jest najbardziej złożony. Uwzględnia trzy rodzaje trybów awarii, które dominują w różnym wieku: śmiertelność niemowląt (w przypadku wczesnych uszkodzeń uszkodzonych części), awarie indukowane (w których części pękają losowo przez cały okres eksploatacji systemu) i zużywają się (w przypadku awarii części posługiwać się). Używany plik PDF ma wygląd „\ __ /”. Szczególnie w przypadku niektórych układów elektronicznych możesz usłyszeć o czasach „wypalenia”, co oznacza, że te części zostały już uruchomione przez część krzywej „\”, a wczesne awarie zostały wyeliminowane (idealnie). Niestety analiza Weibulla szybko się psujejeśli twoje części nie są jednorodne (w tym środowisko użytkowania!) lub jeśli używasz ich w różnych skalach czasowych (np. jeśli niektóre części wchodzą bezpośrednio do użytku, a inne przechodzą najpierw w składzie, wskaźnik „losowych awarii” będzie być znacząco różne, ze względu na połączenie dwóch pomiarów czasu (godzin pracy vs. godzin użytkowania).
Normalne rozkłady są prawie zawsze błędne. Każdy rozkład normalny ma wartości ujemne, brak rozkładu niezawodności. Czasami mogą być przydatnym przybliżeniem, ale w czasach, w których jest to prawdą, prawie zawsze patrzysz na logarytm normalny, więc równie dobrze możesz po prostu użyć właściwej dystrybucji. Rozkłady logarytmiczno-normalne są poprawnie stosowane, gdy występują jakieś zużyte i pomijalne przypadkowe awarie i w żadnych innych okolicznościach! Podobnie jak rozkład normalny, są wystarczająco elastyczne, aby zmusić je do dopasowania większości danych; musisz oprzeć się temu pragnieniu i sprawdzić, czy okoliczności mają sens.
Wreszcie rozkład wykładniczy to prawdziwy koń roboczy. Często nie wiesz, jak stare są części (na przykład, gdy części nie są serializowane i mają różne czasy, kiedy weszły do użytku), więc nie ma żadnej dystrybucji opartej na pamięci. Ponadto wiele części ma tak długi czas zużycia, że jest całkowicie zdominowany przez awarie indukowane lub poza użytecznym przedziałem czasowym analizy. Chociaż może nie być tak doskonałym modelem jak inne dystrybucje, po prostu nie przejmuje się rzeczami, które je potkną. Jeśli masz MTTF (czas zaludnienia / liczba awarii), masz rozkład wykładniczy. Ponadto nie potrzebujesz żadnego fizycznego zrozumienia swojego systemu. Możesz po prostu wykonać wykładnicze szacunkina podstawie zaobserwowanej części MTTF (przy założeniu wystarczająco dużej próbki) i wyszły całkiem nieźle. Jest również odporny na przyczyny: jeśli co drugi miesiąc ktoś się nudzi i gra w krokieta z pewną rolą, dopóki się nie zepsuje, wykłada to wykładnik (wtacza się w MTTF). Funkcja wykładnicza jest również na tyle prosta, że można wykonać obliczenia z tyłu koperty dla dostępności systemów nadmiarowych i tym podobnych, co znacznie zwiększa jego użyteczność.
źródło
Aby odpowiedzieć na twoje wyraźne pytanie, nie możesz użyć rozkładu normalnego do przeżycia, ponieważ rozkład normalny zmierza do ujemnej nieskończoności, a przeżycie jest ściśle nieujemne. Co więcej, nie sądzę, że to prawda, że „czasy przetrwania są wykładniczo rozkładane” przez kogokolwiek w rzeczywistości.
Najczęściej rozkłady przeżycia są złożone i nie są dobrze dopasowane przez żaden nazwany rozkład. Ludzie zwykle nawet nie zawracają sobie głowy próbą ustalenia, jaka to może być dystrybucja. To właśnie sprawia, że model proporcjonalnych hazardów Coxa jest tak popularny: jest półparametryczny, ponieważ ryzyko linii podstawowej można pozostawić całkowicie nieokreślone, ale reszta modelu może być parametryczna pod względem związku z nieokreśloną linią bazową.
źródło
Część ekologii może pomóc odpowiedzieć na pytanie „dlaczego” kryjące się za tym pytaniem.
Powodem zastosowania rozkładu wykładniczego do modelowania przeżycia są strategie życiowe zaangażowane w organizmy żyjące w naturze. Zasadniczo istnieją dwie skrajności w odniesieniu do strategii przetrwania z miejscem na środkowy grunt.
Oto obraz, który ilustruje, co mam na myśli (dzięki uprzejmości Khan Academy):
Na tym wykresie przedstawiono osobniki, które przeżyły na osi Y, oraz „procent maksymalnej oczekiwanej długości życia” (inaczej przybliżony wiek osoby) na osi X.
Typ I to ludzie, którzy modelują organizmy, które wyjątkowo dbają o swoje potomstwo, zapewniając bardzo niską śmiertelność niemowląt. Często gatunki te mają bardzo mało potomstwa, ponieważ każdy z nich wymaga dużej ilości czasu i wysiłku rodziców. Większość tego, co zabija organizmy typu I, to powikłania, które pojawiają się w starszym wieku. Strategia tutaj to wysoka inwestycja w wysoką wypłatę w długim, produktywnym życiu, nawet kosztem zwykłych liczb.
I odwrotnie, typ III jest modelowany przez drzewa (ale może to być również plankton, koralowce, tarło ryb, wiele rodzajów owadów itp.), W których rodzic inwestuje stosunkowo niewiele w każde potomstwo, ale produkuje ich mnóstwo w nadziei, że kilka przetrwać. Strategia ta polega na „opryskaniu i módlcie się” w nadziei, że podczas gdy większość potomstwa zostanie stosunkowo szybko zniszczona przez drapieżniki korzystające z łatwych zbiorów, nieliczne, które przetrwają wystarczająco długo, aby rosnąć, będą coraz trudniejsze do zabicia, ostatecznie stanie się (praktycznie) niemożliwe zjedzony. Przez cały czas osobniki te rodzą ogromną liczbę potomstwa, mając nadzieję, że kilka z nich przetrwa również w swoim wieku.
Typ II to średnia strategia z umiarkowanymi inwestycjami rodziców na rzecz umiarkowanego przeżycia w każdym wieku.
Miałem profesora ekologii, który tak to ujął:
„Typ III (drzewa) to„ Krzywa nadziei ”, ponieważ im dłużej jednostka przeżyje, tym bardziej prawdopodobne jest, że przetrwa. Tymczasem typ I (ludzie) jest„ Krzywą rozpaczy ”, ponieważ im dłużej żyjesz, tym bardziej prawdopodobne jest, że umrzesz. ”
źródło
To nie odpowiada bezpośrednio na pytanie, ale myślę, że bardzo ważne jest, aby to zanotować i nie pasuje do żadnego komentarza.
Podczas gdy rozkład wykładniczy ma bardzo ładną teoretyczną pochodną, a zatem zakładając, że wytworzone dane są zgodne z mechanizmami przyjętymi w rozkładzie wykładniczym, powinien teoretycznie dać optymalne oszacowania, w praktyce jeszcze nie natknąłem się na zbiór danych, w którym rozkład wykładniczy daje nawet blisko do akceptowalnych wyników (oczywiście zależy to od typów danych, które analizowałem, prawie wszystkich danych biologicznych). Na przykład, właśnie spojrzałem na dopasowanie modelu z różnymi dystrybucjami, używając pierwszego zestawu danych, jaki mogłem znaleźć w moim pakiecie R. W celu sprawdzenia modelu rozkładu linii podstawowej zwykle porównujemy z modelem półparametrycznym. Spójrz na wyniki.
Z rozkładu Weibulla, logistyki i logarytmu normalnego nie ma absolutnie wyraźnego zwycięzcy pod względem odpowiedniego dopasowania. Ale jest wyraźny przegrany: rozkład wykładniczy! Z mojego doświadczenia wynika, że ta wielkość niedopasowania nie jest wyjątkowa, ale raczej normą dla rozkładu wykładniczego.
Czemu? Ponieważ rozkład wykładniczy jest rodziną jednoparametrową. Zatem jeśli podam średnią tego rozkładu, określiłem wszystkie pozostałe momenty tego rozkładu. Te pozostałe rodziny to dwie rodziny parametrów. Dlatego w tych rodzinach jest znacznie większa elastyczność w dostosowywaniu się do samych danych.
Teraz pamiętaj, że rozkład Weibulla ma rozkład wykładniczy jako szczególny przypadek (tj. Gdy parametr kształtu = 1). Więc nawet jeśli dane są rzeczywiście wykładnicze, dodajemy tylko nieco więcej szumu do naszych oszacowań, stosując rozkład Weibulla nad rozkładem wykładniczym. Jako taki, prawie nigdy nie zalecałbym używania rozkładu wykładniczego do modelowania rzeczywistych danych (i jestem ciekawy, czy ktoś z czytelników ma przykład, kiedy to naprawdę dobry pomysł).
źródło
Kolejny powód, dla którego rozkład wykładniczy często pojawia się w celu modelowania odstępu między zdarzeniami, jest następujący.
Powszechnie wiadomo, że przy pewnych założeniach suma dużej liczby niezależnych zmiennych losowych będzie zbliżona do rozkładu Gaussa. Podobne twierdzenie dotyczy procesów odnawiania , tj. Modeli stochastycznych dla zdarzeń, które występują losowo w czasie z interwałami między zdarzeniami IID. W rzeczywistości twierdzenie Palm-Khintchine'a stwierdza, że superpozycja wielu (niekoniecznie poissońskich) procesów odnawiania zachowuje się asymptotycznie jak proces Poissona . Interwały między zdarzeniami procesu Poissona są wykładniczo rozłożone.
źródło
tl; dr - Rozkład wykładniczy jest równoznaczny z założeniem, że osoby umierają w takim samym czasie jak inne.
Pochodzenie
Załóżmy, że żywa osoba może równie dobrze umrzeć w danym momencie, jak w każdej innej chwili.
Więc wskaźnik śmierci- d P.d t jest proporcjonalny do populacji, P. .
Tak więc populacja ma rozkład wykładniczy.
Notatka matematyczna
Powyższa matematyka jest redukcją równania różniczkowego zwyczajnego pierwszego rzędu (ODE) . Zwykle rozwiązalibyśmy równieżdo0 zauważając warunek brzegowy, że populacja zaczyna się od określonej wartości,P.( t0) w momencie rozpoczęcia t0 .
Następnie równanie staje się:
Sprawdzenie autentyczności
Rozkład wykładniczy zakłada, że ludzie w populacji umierają w tym samym tempie z czasem. W rzeczywistości śmiertelność będzie się różnić w przypadku populacji skończonych.
Opracowanie lepszych rozkładów wymaga stochastycznych równań różniczkowych . Zatem nie możemy powiedzieć, że istnieje stałe prawdopodobieństwo śmierci; raczej musimy opracować rozkład prawdopodobieństwa śmierci każdego człowieka w danym momencie, a następnie połączyć te różne drzewa możliwości razem dla całej populacji, a następnie rozwiązać to równanie różniczkowe w czasie.
Nie mogę sobie przypomnieć, że widziałem to wcześniej w jakiejkolwiek sieci, więc prawdopodobnie na to nie wpadniesz; ale to kolejny etap modelowania, jeśli chcesz poprawić rozkład wykładniczy.
źródło
(Zwróć uwagę, że w cytowanej części stwierdzenie było warunkowe; samo zdanie nie zakładało wykładniczego przetrwania, wyjaśniało konsekwencję takiego postępowania. Niemniej jednak założenie, że przetrwanie wykładnicze jest powszechne, warto więc odpowiedzieć na pytanie „dlaczego wykładniczy ”i„ dlaczego nie normalny ”- ponieważ pierwszy jest już dość dobrze omówiony, skupię się bardziej na drugiej rzeczy)
Normalnie rozłożone czasy przeżycia nie mają sensu, ponieważ mają niezerowe prawdopodobieństwo, że czas przeżycia będzie ujemny.
Jeśli następnie ograniczysz swoje rozważania do normalnych rozkładów, które prawie nie mają szansy być bliskie zeru, nie możesz modelować danych o przeżyciu, które mają uzasadnione prawdopodobieństwo krótkiego czasu przeżycia:
Może raz na jakiś czas czasy przeżycia, które prawie nie mają szans na krótkie czasy przeżycia, byłyby rozsądne, ale potrzebujesz rozkładów, które mają sens w praktyce - zwykle obserwujesz krótkie i długie czasy przeżycia (i cokolwiek pomiędzy), zwykle z wypaczeniem rozkład czasów przeżycia). Niezmodyfikowany rozkład normalny rzadko będzie przydatny w praktyce.
[ Skrócona normalna może częściej być rozsądnym przybliżonym przybliżeniem niż normalna, ale inne rozkłady często będą lepsze.]
Stałe ryzyko wykładnicze jest czasem rozsądnym przybliżeniem czasów przeżycia. Na przykład, jeśli „zdarzenia losowe”, takie jak wypadek, mają znaczący wpływ na śmiertelność, to przeżycie wykładnicze będzie działać całkiem dobrze. (Na przykład wśród populacji zwierząt czasami zarówno drapieżnictwo, jak i choroba mogą zachowywać się w przybliżeniu jak przypadek, pozostawiając coś w rodzaju wykładniczej jako rozsądne pierwsze przybliżenie czasów przeżycia).
Rzeczywiście może to być trochę lepsze ... ale zauważ, że odpowiadałoby to nieskończonemu zagrożeniu przy 0, więc tylko czasami byłoby przydatne. Chociaż może modelować przypadki o bardzo wysokim odsetku bardzo krótkich czasów, ma odwrotny problem polegający na tym, że jest w stanie modelować przypadki o typowo znacznie krótszym niż przeciętne przeżyciu (25% czasów przeżycia jest poniżej 10,15% średniego czasu przeżycia i połowa czasów przeżycia jest mniejsza niż 45,5% średniej; to znaczy mediana przeżycia jest mniejsza niż połowa średniej).
Spójrzmy na skalowaneχ2)1 (tj. gamma z parametrem kształtu 12) ):
[Może jeśli zsumujesz dwa z nichχ2)1 zmienia się ... a może jeśli uważasz, że jest niecentralny χ2) dostalibyście odpowiednie możliwości. Poza wykładniczym, do powszechnych wyborów rozkładów parametrycznych dla czasów przeżycia należą Weibull, lognormal, gamma, log-logistic i wiele innych ... zauważ, że Weibull i gamma uwzględniają wykładniczy jako szczególny przypadek]
źródło
Dlatego
które nadal ma niezerowe prawdopodobieństwo bycia ujemnym, więc nie jest to ściśle pozytywne;
średnia i wariancja to coś, co można zmierzyć na podstawie populacji, którą próbujesz wymodelować. Jeśli twoja populacja ma średnią 2 i wariancję 1 i modelujesz ją z rozkładem normalnym, rozkład ten będzie miał masę zasadniczą poniżej zera; jeśli modelujesz go z rozkładem normalnym ze średnią 5 i wariancją 0,1, twój model ma oczywiście bardzo odmienne właściwości od rzeczy, którą ma modelować.
Rozkład normalny ma określony kształt, który jest symetryczny względem średniej. Jedynym sposobem dostosowania kształtu jest przesunięcie go w prawo i w lewo (zwiększenie lub zmniejszenie średniej) lub zwiększenie lub zmniejszenie rozproszenia (zwiększenie lub zmniejszenie wariancji). Oznacza to, że jedynym sposobem na uzyskanie rozkładu normalnego, w którym większość masy jest między dwa a dziesięć, a tylko niewielka ilość masy jest poniżej zera, musisz ustawić średnią na, powiedzmy, sześć (środek zakresu ) i ustawić wariancję na tyle małą, aby tylko niewielka część próbek była ujemna. Ale wtedy prawdopodobnie przekonasz się, że większość twoich próbek to 5, 6 lub 7, podczas gdy powinieneś mieć całkiem dużo 2, 3, 4, 8, 9 i 10.
źródło