Studiowałem model Cox Proporcjonalnych Zagrożeń i to pytanie jest przerzucone w większości tekstów.
Cox zaproponował dopasowanie współczynników funkcji Hazard przy użyciu metody częściowego prawdopodobieństwa, ale dlaczego nie po prostu dopasować współczynników parametrycznej funkcji przeżycia przy użyciu metody maksymalnego prawdopodobieństwa i modelu liniowego?
W każdym przypadku, gdy masz cenzurowane dane, możesz po prostu znaleźć obszar pod krzywą. Na przykład, jeśli twoje oszacowanie wynosi 380 przy odchyleniu standardowym 80, a próbka jest ocenzurowana> 300, istnieje prawdopodobieństwo 84% dla tej próbki w obliczeniu prawdopodobieństwa przy założeniu błędu normalnego.
Odpowiedzi:
Jeśli znasz rozkład parametryczny, którego śledzą twoje dane, to stosując podejście oparte na maksymalnym prawdopodobieństwie, a rozkład ma sens. Prawdziwą zaletą regresji Cox Proportional Hazards jest to, że nadal można dopasowywać modele przeżycia bez znajomości (lub zakładania) rozkładu. Podajesz przykład używając rozkładu normalnego, ale większość czasów przeżycia (i innych typów danych, dla których stosowana jest regresja PH Coxa) nie zbliża się do podążenia za rozkładem normalnym. Niektórzy mogą stosować logarytmiczny normalny, Weibulla lub inny rozkład parametryczny, a jeśli chcesz przyjąć to założenie, podejście parametryczne o maksymalnym prawdopodobieństwie jest świetne. Ale w wielu rzeczywistych przypadkach nie wiemy, jaki jest odpowiedni rozkład (lub nawet wystarczająco dokładne przybliżenie). W przypadku cenzury i zmiennych towarzyszących nie możemy zrobić prostego histogramu i powiedzieć „to dla mnie wygląda jak… rozkład”. Dlatego bardzo przydatne jest posiadanie techniki, która działa dobrze bez potrzeby specyficznej dystrybucji.
Dlaczego warto korzystać z hazardu zamiast funkcji dystrybucji? Rozważ następujące stwierdzenie: „Ludzie w grupie A dwa razy częściej umierają w wieku 80 lat niż ludzie w grupie B”. To może być prawda, ponieważ ludzie w grupie B żyją dłużej niż ci w grupie A, lub może być tak, ponieważ ludzie w grupie B mają krótsze życie, a większość z nich nie żyje długo przed 80. rokiem życia, co daje bardzo małe prawdopodobieństwo z nich umiera w wieku 80 lat, podczas gdy wystarczająca liczba osób w grupie A żyje do 80, że znaczna ich liczba umrze w tym wieku, co daje znacznie większe prawdopodobieństwo śmierci w tym wieku. To samo stwierdzenie może oznaczać, że bycie w grupie A jest lepsze lub gorsze niż bycie w grupie B. Bardziej sensowne jest powiedzenie, że ludzie (w każdej grupie), którzy dożyli 80 lat, to jaki odsetek umrze, zanim osiągną 81 lat. To jest zagrożenie (a zagrożenie jest funkcją funkcji dystrybucji / funkcji przeżycia / itp.). Zagrożenie jest łatwiejsze do pracy w modelu półparametrycznym, a następnie może dostarczyć informacji o rozkładzie.
źródło
„My” niekoniecznie. Zakres narzędzi do analizy przeżycia waha się od całkowicie nieparametrycznych, takich jak metoda Kaplana-Meiera, po modele w pełni parametryczne, w których określasz rozkład zagrożenia. Każdy ma swoje zalety i wady.
Metody półparametryczne, takie jak model proporcjonalnego hazardu Coxa, pozwalają uniknąć nieprecyzyjności podstawowej funkcji hazardu. Może to być pomocne, ponieważ nie zawsze wiemy, jaka jest podstawowa funkcja zagrożenia, aw wielu przypadkach również nie obchodzi nas to . Na przykład wiele badań epidemiologicznych chce wiedzieć „Czy narażenie X skraca czas do wystąpienia zdarzenia Y?” To, na czym im zależy, to różnica między pacjentami, którzy mają X, a którzy nie mają X. W takim przypadku podstawowe zagrożenie nie ma tak naprawdę znaczenia, a ryzyko jego błędnego określenia jest gorsze niż konsekwencje niewiedzy.
Są jednak chwile, kiedy to również nie jest prawdą. Pracowałem z modelami w pełni parametrycznymi, ponieważ leżące u ich podstaw zagrożenie było interesujące.
źródło