Analiza bayesowskiego przeżycia: proszę, napisz do mnie wcześniej dla Kaplana Meiera!

20

Rozważ obserwacje dobrze ocenzurowane z wydarzeniami czasami . Liczba podatnych osobników w czasie wynosi , a liczba zdarzeń w czasie wynosi .t1,t2,n I I d Iiniidi

Kaplan-Meier lub estymator produktu powstaje naturalnie jako MLE, gdy funkcja przeżycia jest funkcją krokową . Prawdopodobieństwo to a MLE to . L ( α ) = Π i ( 1 - α i ) d I α n I - d i i α i = 1 - d iS(t)=i:ti<tαi

L(α)=i(1αi)diαinidi
α^i=1dini

OK, teraz załóżmy, że chcę iść Bayesian. Potrzebuję pewnego rodzaju `` naturalnego '' wcześniejszego pomnożenia , prawda?L(α)

Przeszukując oczywiste słowa kluczowe, zauważyłem, że proces Dirichleta jest dobry wcześniej. Ale o ile rozumiem, jest to również przeor na punkty nieciągłości ?ti

Jest to z pewnością bardzo interesujące i chętnie się o tym dowiaduję, jednak zadowoliłbym się czymś prostszym. Zaczynam podejrzewać, że to nie jest takie proste, jak myślałem, i czas poprosić o radę ...

Z góry bardzo dziękuję!

PS: Kilka szczegółów na temat tego, co mam nadzieję, że jestem zainteresowany (tak proste, jak to możliwe) wyjaśnienia dotyczące sposobu obsługi procesu Dirichleta wcześniej, ale myślę, że powinno być możliwe użycie po prostu uprzedniego na - to znaczy a priori na etapie działa z nieciągłością w .t iαiti

Myślę, że „globalny kształt” funkcji krokowych próbkowanych wcześniej nie powinien zależeć od - powinna istnieć podstawowa rodzina funkcji ciągłych, które są aproksymowane przez te funkcje krokowe.ti

Nie wiem, czy powinien być niezależny (wątpię). Jeśli tak, myślę, że oznacza to, że poprzedni zależy od , a jeśli oznaczymy jego rozkład przez to iloczyn zmienną niezależną zmienną jest zmienna . Wydaje się tutaj, że zmienne log- mogą być przydatne.α i Δ t i = t i - t i - 1 A ( Δ t ) A ( Δ 1 ) A ( Δ 2 ) A ( Δ 1 + Δ 2 ) ΓαiαiΔti=titi1A(Δt)A(Δ1)A(Δ2)A(Δ1+Δ2)Γ

Ale tutaj w zasadzie utknąłem. Na początku nie wpisałem tego, ponieważ nie chciałem kierować wszystkich odpowiedzi w tym kierunku. Byłbym szczególnie wdzięczny za odpowiedzi z odniesieniami bibliograficznymi, które pomogą mi uzasadnić mój ostateczny wybór.

Elvis
źródło
W MLE , co to jest ? Czy to literówka? Masz na myśli ? minia^i=1dimimini
stachyra
Tak, oczywiście . Poprawiam ni
Elvis
1
Z tego slajdu znalazłem ten artykuł , którego autor ma również to wprowadzenie . Jeśli nie wystarczą one jako źródła, prawdopodobnie będą to ich własne odniesienia. Także ten film na temat hierarchicznych procesów Dirichleta.
Sean Easter
Zauważ, że rozumiem podstawowe cechy DP, ale nie rozumiem, jak z niego korzystać, konkretnie, jako wcześniej ... Ponadto, z jaką miarą podstawową itp.
Elvis
Czy ta funkcja prawdopodobieństwa jest unikalna? Czy możesz uzyskać KM z innych prawdopodobieństw?
probabilityislogic

Odpowiedzi:

11

Zwróć uwagę, że ponieważ twoja funkcja prawdopodobieństwa jest produktem funkcji - dane mówią ci, że nie ma dowodów na korelację między nimi. Zauważ, że zmienne są już skalowane w celu uwzględnienia czasu. Dłuższy okres oznacza większą szansę na zdarzenia, co ogólnie oznacza większy .d i d iαididi

Najbardziej podstawowym sposobem na „przejście do bayesowskiego” tutaj jest użycie niezależnych . Zauważ, że więc jest to właściwy wcześniejszy - stąd też tylny jest również właściwy. to niezależne rozkłady beta z parametrami . Można to łatwo zasymulować w celu wygenerowania tylnego rozkładu krzywej przeżycia, używając na przykład funkcji w R.0 < α i < 1 p ( α i ) b e t a ( n i - d i + 1 , d i + 1 )p(αi)=10<αi<1p(αi)beta(nidi+1,di+1)rbeta ()

Myślę, że to dotyczy twojego głównego pytania dotyczącego „prostszej” metody. Poniżej znajdują się tylko początki pomysłu stworzenia lepszego modelu, który zachowuje elastyczną formę KM dla funkcji przetrwania.

Myślę, że głównym problemem z krzywą KM jest funkcja Survival, a nie wcześniej. Na przykład, dlaczego wartości powinny odpowiadać zaobserwowanym punktom czasowym? Czy nie byłoby sensowniej umieszczać je w punktach odpowiadających znaczącym czasom zdarzeń na podstawie rzeczywistego procesu? Jeśli obserwowane punkty czasowe są zbyt daleko od siebie, krzywa KM będzie „zbyt gładka”. Jeśli są zbyt blisko, krzywa KM będzie „zbyt szorstka” i potencjalnie wykaże gwałtowne zmiany. Jednym ze sposobów radzenia sobie z problemem „zbyt szorstkim” jest umieszczenie skorelowanego wcześniej na taki sposób, że . Efektem tego uprzedniego będzie zmniejszenie bliżej siebie pobliskich parametrów. Możesz użyć tego w „log-odds”tiααiαi+1ηi=log(αi1αi)ητ(ηiηi1)2ni,dii(t0,t1)został podzielony na 3 „drobniejsze” przedziały więc nie wiesz ale tylko i . Prawdopodobnie będziesz więc musiał dodać te „brakujące dane” i użyć algorytmu EM lub VB (pod warunkiem, że nie pójdziesz ścieżką MCMC).(t00,t01,t02,t10)n02,n10,d01,d02,d10n1=n01d1=d01+d02+d10

Mam nadzieję, że to da ci początek.

prawdopodobieństwo prawdopodobieństwa
źródło
αi
5

Dla czytelników, którzy mają problem z przejściem do Bayesianu w celu oszacowania funkcji przeżycia akceptujących właściwą cenzurę, zaleciłbym nieparametryczne podejście bayesowskie opracowane przez F. Mangili, A Benavoli i in. Jedyną wcześniejszą specyfikacją jest parametr (precyzja lub wytrzymałość). Pozwala to uniknąć konieczności określania procesu Dirichleta w przypadku braku wcześniejszych informacji. Autorzy proponują (1) - solidny estymator krzywych przeżycia i jego wiarygodnych przedziałów prawdopodobieństwa przeżycia (2) - Test różnicy przeżycia osobników z 2 niezależnych populacji, który przedstawia różne korzyści w porównaniu z klasycznym testem logarytmicznym lub inne testy nieparametryczne. Zobacz pakiet IDPsurvival pakietu R i to odniesienie: Wiarygodna analiza przeżycia oparta na procesie Dirichleta. F Mangili i in. Dziennik biometryczny. 2014.

Pascal
źródło