Szacunek ML rozkładu wykładniczego (z cenzurowanymi danymi)

9

W analizie przeżycia zakładasz, że czas przeżycia rv jest rozkładany wykładniczo. Biorąc pod uwagę teraz, że mam „wyniki” iid rv . Tylko część tych wyników jest w rzeczywistości „w pełni zrealizowana”, tzn. Pozostałe obserwacje są nadal „żywe”.Xix1,,xnXi

Jeśli chciałbym przeprowadzić oszacowanie ML dla parametru częstości rozkładu, jak mogę wykorzystać niezrealizowane obserwacje w spójny / odpowiedni sposób? Uważam, że nadal zawierają przydatne informacje do oszacowania.λ

Czy ktoś mógłby poprowadzić mnie do literatury na ten temat? Jestem pewien, że istnieje. Mam jednak problem ze znalezieniem dobrych słów kluczowych / wyszukiwanych haseł dla tego tematu.

Dobry facet Mike
źródło
3
Mówisz więc, że spośród zmiennych losowych, których masz pomiar, powiedz, że obserwacji reprezentuje „sfinalizowane” długości życia (ponieważ powiązane zmienne losowe były „martwe” w czasie pomiaru), podczas gdy reszta obserwacje to długości przeżycia zmiennych losowych, które „żyły” w czasie pomiaru? ( )nn1<nn2<nn1+n2=n
Alecos Papadopoulos
1
jest to model okrojony, a „żywe” zmienne losowe są obcinane w momencie zatrzymania obserwacji.
Xi'an
1
Sprawdź modele Tobita, aby uzyskać skrócone dane i powiązane źródła (np. Tutaj ).
Richard Hardy
2
Wygląda na to, że masz cenzurowane dane, takie jak wcielenia, podczas których niektórzy ludzie zginęli, ale niektórzy nadal żyją, tak, że wiesz tylko, powiedzmy, dla niektórych znanych stałych . xi>titi
kjetil b halvorsen
3
Uważaj na czasami subtelną różnicę między tymi dwiema sytuacjami. Często zdarza się, że obcięcie jest mylone z cenzurą i odwrotnie.
Alecos Papadopoulos

Odpowiedzi:

17

Nadal możesz oszacować parametry, korzystając bezpośrednio z prawdopodobieństwa. Niech obserwacje będą wynosić z rozkładem wykładniczym o współczynniku i nieznanym. Funkcja gęstości to , funkcja rozkładu skumulowanego i funkcja ogona . Załóżmy, że pierwsze obserwacje są w pełni obserwowane, podczas gdy dla wiemy tylko, że dla niektórych znanych stałych dodatnichx1,,xnλ>0f(x;λ)=λeλxF(x;λ)=1eλxG(x;λ)=1F(x;λ)=eλxrxr+1,,xnxj>tjtj. Jak zawsze, prawdopodobieństwem jest „prawdopodobieństwo zaobserwowanych danych” dla obserwacji cenzurowanych, podane przez , więc pełną funkcją prawdopodobieństwa jest Funkcja loglikelihood staje się wtedy który ma taką samą formę jak prawdopodobieństwo dla zwykłego, w pełni obserwowanego przypadku, z wyjątkiem pierwszego terminu w miejsce . Pisanie dla średniej obserwacji i czasów cenzurowania, estymator maksymalne prawdopodobieństwo stajeP(Xj>tj)=G(tj;λ)

L(λ)=i=1rf(xi;λ)i=r+1nG(tj;λ)
l(λ)=rlogλλ(x1++xr+tr+1++tn)
rlogλnlogλTλλ^=rnT , które sam możesz porównać z w pełni zaobserwowanym przypadkiem.
 EDIT   

Aby spróbować odpowiedzieć na pytanie w komentarzach: Jeśli wszystkie obserwacje zostały ocenzurowane, to znaczy, nie czekaliśmy wystarczająco długo, aby zaobserwować jakieś zdarzenie (śmierć), co możemy zrobić? W takim przypadku , więc loglogelihood staje się co oznacza, że ​​w maleje liniowo . Zatem maksimum musi wynosić dla ! Ale zero nie jest prawidłową wartością parametru szybkości ponieważ nie odpowiada żadnemu rozkładowi wykładniczemu. Musimy stwierdzić, że w tym przypadku nie istnieje oszacowanie maksymalnego prawdopodobieństwa! Być może można by spróbować zbudować pewien przedział ufności dlar=0

l(λ)=nTλ
λλ=0λλw oparciu o tę funkcję wiarygodności? W tym celu spójrz poniżej.

Ale w każdym razie prawdziwy wniosek z danych w tym przypadku jest taki, że powinniśmy czekać więcej czasu, aż otrzymamy jakieś zdarzenia ...

Oto, w jaki sposób możemy skonstruować (jednostronny) przedział ufności dla na wypadek, gdyby wszystkie obserwacje zostały ocenzurowane. Funkcja prawdopodobieństwa w tym przypadku to , która ma taką samą formę jak funkcja prawdopodobieństwa z eksperymentu dwumianowego, w którym osiągnęliśmy wszystkie sukcesy, czyli (patrz także Przedział ufności wokół dwumianowego oszacowania 0 lub 1 ). W takim przypadku chcemy jednostronnego przedziału ufności dla w postaci . Następnie otrzymujemy przedział dla rozwiązując .λeλnTpnp[p¯,1]λlogp=λT

Otrzymujemy przedział ufności dla , rozwiązując tak, że . Daje to ostatecznie przedział ufności dla : p

P(X=n)=pn0.95    (say)
nlogplog0.95λ
λlog0.95nT.
kjetil b halvorsen
źródło
1
Czytając pytanie i odpowiedź, pomyślałem: „A jeśli wszystkie obserwacje są drugiego typu, dla których wiemy tylko, że i żadna obserwacja nie została w pełni zaobserwowana?” Naprawdę przydatne byłoby dołączenie tego przypadku również do twojej odpowiedzi, jako rozszerzenia. xj>tj
Alecos Papadopoulos