Wyjaśnienie laika dotyczące cenzury w analizie przeżycia

13

Czytałem o tym, czym jest cenzura i jak należy ją uwzględnić w analizie przeżycia, ale chciałbym usłyszeć jej mniej matematyczną definicję i bardziej intuicyjną definicję (zdjęcia byłyby świetne!). Czy ktoś może mi wyjaśnić 1) cenzurę i 2) w jaki sposób wpływa to na krzywe Kaplana-Meiera i regresję Coxa?

RustyStatistician
źródło
Proponuję posłuchać podcastu z zakresu dygresji liniowej na temat analizy przeżycia i usłyszeć ich uproszczoną definicję cenzury lewej i prawej oraz motywację do modelu Coxa.
Uri Goren

Odpowiedzi:

16

Cenzurowanie jest często opisywane w porównaniu ze skróceniem . Niezły opis tych dwóch procesów zapewnia Gelman i in. (2005, s. 235):

Skrócone dane różnią się od danych ocenzurowanych, dlatego nie jest dostępna żadna liczba obserwacji poza punktem obcięcia. Podczas cenzury tracone są wartości obserwacji poza punktem obcięcia, ale obserwowana jest ich liczba.

Cenzorowanie lub obcinanie może wystąpić w przypadku wartości powyżej pewnego poziomu (cenzura po prawej), poniżej pewnego poziomu (cenzura po lewej) lub obu.

Poniżej znajduje się przykład standardowego rozkładu normalnego, który jest ocenzurowany w punkcie (środkowy) lub obcięty w (prawy). Jeśli próbka jest obcięta, nie mamy danych poza punktem obcięcia, a ocenzurowane wartości próbki powyżej punktu obcięcia są „zaokrąglane” do wartości granicznej, więc są nadmiernie reprezentowane w twojej próbce.2.02.02.0

wprowadź opis zdjęcia tutaj

Intuicyjny przykład cenzury polega na tym, że pytasz respondentów o ich wiek, ale zapisujesz je tylko do pewnej wartości, a wszystkie grupy wiekowe powyżej tej wartości, powiedzmy 60 lat, są rejestrowane jako „60+”. Prowadzi to do posiadania dokładnych informacji o wartościach nie cenzurowanych i braku informacji o wartościach cenzurowanych.

Nietypowy przykład cenzury z życia codziennego zaobserwowano w polskich wynikach egzaminu maturalnego, który zwrócił uwagę w Internecie . Egzamin zdawany jest na koniec szkoły średniej, a uczniowie muszą go zdać, aby móc ubiegać się o wyższe wykształcenie. Czy potrafisz zgadnąć na podstawie poniższej fabuły, jaka jest minimalna liczba punktów, które uczniowie muszą uzyskać, aby zdać egzamin? Nic dziwnego, że „lukę” w normalnym rozkładzie można łatwo „wypełnić”, jeśli weźmie się odpowiedni ułamek nadreprezentowanych wyników tuż powyżej granicy cenzury.

wprowadź opis zdjęcia tutaj

W przypadku analizy przeżycia

cenzura występuje, gdy mamy pewne informacje o indywidualnym czasie przeżycia, ale nie znamy dokładnie czasu przeżycia

(Kleinbaum i Klein, 2005, s. 5). Na przykład leczysz pacjentów jakimś lekiem i obserwujesz ich do końca badania, ale nie wiesz, co się z nimi stanie po zakończeniu badania (czy wystąpiły nawroty lub działania niepożądane?), Jedyne, co wiesz, to że „ przeżył ” przynajmniej do końca badania.

Poniżej znajduje się przykład danych wygenerowanych z rozkładu Weibulla modelowanego za pomocą estymatora Kaplana – Meiera. Model niebieskich znaczników krzywej oszacowany na pełnym zbiorze danych, na środkowym wykresie można zobaczyć ocenzurowaną próbkę i model oszacowany na danych ocenzurowanych (czerwona krzywa), po prawej stronie widać ściętą próbkę i model oszacowany na takiej próbce (czerwona krzywa). Jak widać, brakujące dane (obcięcie) ma znaczący wpływ na szacunki, ale cenzurą można łatwo zarządzać przy użyciu standardowych modeli analizy przeżycia.

wprowadź opis zdjęcia tutaj

Nie oznacza to, że nie możesz analizować skróconych próbek, ale w takich przypadkach musisz użyć modeli dla brakujących danych, które próbują „odgadnąć” nieznane informacje.


Kleinbaum, DG i Klein, M. (2005). Analiza przeżycia: tekst samouczący się. Skoczek.

Gelman, A., Carlin, JB, Stern, HS i Rubin, DB (2005). Analiza danych bayesowskich. Chapman & Hall / CRC.

Tim
źródło
Czy wiesz, skąd pochodzi ta fabuła Matura? Próbowałem google i wciąż otrzymuję link do reddita, ale ten nie zawiera żadnych odnośników. Prowadzi to po prostu do imgur.com bez przypisania. AKTUALIZACJA: Znaleziono. cke.edu.pl//images/files/matura/informacje_o_wynikach/2013/… strona 18.
mówi Przywróć Monikę
1
@amoeba, jeśli jesteś zainteresowany dalszymi szczegółami, skontaktuj się ze mną. Większość materiałów na ten temat, które znam, jest niestety po polsku. Zdjęcie to jedno, ale mój przyjaciel dokonał bardziej szczegółowej analizy tych danych (przy okazji, jest on dostępny na życzenie).
Tim
2

Cenzura ma kluczowe znaczenie dla analizy przeżycia.

Podstawową ideą jest to, że informacje są cenzurowane, są dla ciebie niewidoczne. Mówiąc prosto, cenzurowany rozkład czasów życia uzyskuje się, jeśli zarejestrujesz czasy życia, zanim wszyscy w próbie umrą. Jeśli myślisz o czasie poruszającym się „w prawo” na osi X, można to nazwać cenzurą w prawo.

Istnieją również inne typy: cenzura po lewej i cenzura okna. Zobacz np. Tekst Allison z 1984 r. Na temat analizy historii zdarzeń, opublikowany przez Sage w celu pouczenia.

Przykład: Jeśli obliczasz liczbę rozwodów w populacji, chcesz uwzględnić tylko osoby, które są zagrożone rozwodem (to znaczy są małżeństwem). Jeśli ludzie zakończą małżeństwo z powodów innych niż rozwód (żałoba, unieważnienie), to chcesz je cenzurować. Nie są już zagrożeni rozwodem. Twoje oszacowania Kaplana-Meiera (i wykresy) nie powinny zawierać ocenzurowanych obserwacji po czasie, w którym są cenzurowane, ale powinny obejmować je do tego momentu.

Torkildl
źródło
Grafika czy wykresy?
RustyStatistician