W R przeprowadzam analizę danych dotyczących przeżycia chorych na raka.
Czytałem bardzo pomocne rzeczy na temat analizy przeżycia w CrossValidated i innych miejscach i myślę, że zrozumiałem, jak interpretować wyniki regresji Coxa. Jednak jeden wynik wciąż mnie wkurza ...
Porównuję przeżycie vs. płeć. Krzywe Kaplana-Meiera są wyraźne na korzyść pacjentek (kilkakrotnie sprawdziłem, że dodana przeze mnie legenda jest prawidłowa, pacjent o maksymalnym przeżyciu, wynoszącym 4856 dni, jest rzeczywiście kobietą):
A regresja Coxa powraca:
Call:
coxph(formula = survival ~ gender, data = Clinical)
n= 348, number of events= 154
coef exp(coef) se(coef) z Pr(>|z|)
gendermale -0.3707 0.6903 0.1758 -2.109 0.035 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
exp(coef) exp(-coef) lower .95 upper .95
gendermale 0.6903 1.449 0.4891 0.9742
Concordance= 0.555 (se = 0.019 )
Rsquare= 0.012 (max possible= 0.989 )
Likelihood ratio test= 4.23 on 1 df, p=0.03982
Wald test = 4.45 on 1 df, p=0.03499
Score (logrank) test = 4.5 on 1 df, p=0.03396
Tak więc współczynnik gendermale
ryzyka (HR) dla mężczyzn ( ) wynosi 0,6903. Zinterpretowałbym to (bez patrzenia na krzywą Kaplana-Meiera): ponieważ HR wynosi <1, bycie pacjentem płci męskiej jest ochronne. A dokładniej, pacjentka ma 1 / 0,6903 = exp (-coef) = 1,449 bardziej prawdopodobne, że umrze w dowolnym momencie niż mężczyzna.
Ale to nie wygląda tak, jak mówią krzywe Kaplana-Meiera! Co jest nie tak z moją interpretacją?
źródło
Odpowiedzi:
Jest to bardzo dobry przykład nieproporcjonalnych zagrożeń LUB wpływu „wyczerpania” w analizie przeżycia. Spróbuję wyjaśnić.
Na początku rzuć okiem na krzywą Kaplana-Meiera (KM): w pierwszej części (do około 3000 dni) odsetek mężczyzn wciąż żyjących w populacji zagrożonej w czasie t jest większy niż odsetek kobiet (tzn. niebieska linia jest „wyższa” niż czerwona). Oznacza to, że płeć męska rzeczywiście „chroni” badane wydarzenie (śmierć). W związku z tym współczynnik ryzyka powinien wynosić od 0 do 1 (a współczynnik powinien być ujemny).
Jednak po dniu 3000 czerwona linia jest wyższa! To rzeczywiście sugeruje coś przeciwnego. Na podstawie samego tego wykresu KM sugerowałoby to ponadto nieproporcjonalne zagrożenie. W tym przypadku „nieproporcjonalny” oznacza, że efekt twojej niezależnej zmiennej (płeć) nie jest stały w czasie. Innymi słowy, współczynnik ryzyka można zmieniać w miarę upływu czasu. Jak wyjaśniono powyżej, wydaje się, że tak jest. Regularne proporcjonalnego hazardu Coxa modelu nie można wstawić takie skutki. W rzeczywistości jednym z głównych założeń jest to, że zagrożenia są proporcjonalne! Teraz możesz faktycznie modelować również nieproporcjonalne zagrożenia, ale to wykracza poza zakres tej odpowiedzi.
Pozostaje jeszcze jeden komentarz: ta różnica może wynikać z faktu, że prawdziwe zagrożenia są nieproporcjonalne lubfakt, że istnieje duża wariancja w szacunkach ogona krzywych KM. Należy zauważyć, że w tym momencie łączna grupa 348 pacjentów spadnie do bardzo małej populacji wciąż zagrożonej. Jak widać, obie grupy płci mają pacjentów doświadczających zdarzenia i pacjentów ocenzurowanych (linie pionowe). W miarę zmniejszania się populacji zagrożonej szacunki dotyczące przeżycia będą mniej pewne. Jeśli narysowałbyś 95% przedziały ufności wokół linii KM, zobaczyłbyś, że szerokość przedziału ufności rośnie. Jest to ważne również dla oceny zagrożeń. Mówiąc prościej, ponieważ populacja zagrożona i liczba zdarzeń w końcowym okresie badania jest niska, okres ten w mniejszym stopniu przyczyni się do szacunków w początkowym modelu Coxa.
Na koniec wyjaśniłoby to, dlaczego zagrożenie (zakładane stałe w czasie) jest bardziej zgodne z pierwszą częścią KM, a nie z końcowym punktem końcowym.
EDYCJA: patrz komentarz punktowy @ Scrotchi do pierwotnego pytania: Jak stwierdzono, efekt niskiej liczby w końcowym okresie badania jest taki, że oszacowania zagrożeń w tych punktach czasowych są niepewne. W związku z tym masz również mniej pewności, czy oczywiste naruszenie założenia o proporcjonalnych zagrożeniach nie wynika z przypadku. Jak stwierdza @ scrotchi, założenie PH może nie być takie złe.
źródło
Jesteś zdezorientowany co do charakteru swojej produkcji. Dane te mówią: jeśli jesteś mężczyzną, istnieje większe prawdopodobieństwo, że będziesz żył dłużej niż kobieta; Kobiety mają gorsze przeżycie niż mężczyźni. Znajduje to odzwierciedlenie w wyniku regresji, ponieważ efektem MĘŻCZYZNA jest ujemny współczynnik ryzyka log, np. Mężczyźni mają mniejsze ryzyko niż kobiety. W większości przypadków (kiedy „krzywe” krzywych) krzywa przeżycia mężczyzn jest większa niż u kobiet, wyniki modelu Coxa i wykres są bardzo zgodne. Krzywe KM potwierdzają to, podobnie jak dane wyjściowe modelu regresji. „Krzyż” jest nieistotny.
Krzywe KM źle zachowują się w ogonach, szczególnie gdy zbliżają się do 0% i / lub zwężają się płasko. Oś Y to proporcja, która przeżyła. Przy stosunkowo niewielu, którzy przeżyli długo w badaniu i niewielu, którzy umierają w tym czasie, wiarygodność szacunków jest intuicyjnie i graficznie straszna. Zwracam uwagę, na przykład, że w twojej kohorcie jest wyraźnie mniej kobiet niż mężczyzn i że po 2800 dniach w kohorcie pozostało mniej niż 10 kobiet, o czym świadczą kroki na krzywej przeżycia i brak cenzurowanych zdarzeń.
Jako ciekawą uwagę, ponieważ analizy przeżycia przy użyciu krzywych KM, testów rang logu i modeli Coxa stosują rankingowy czas przeżycia, faktyczny czas przeżycia jest nieco nieistotny. Twoja najdłużej żyjąca kobieta mogła przetrwać jeszcze 100 lat i nie miałoby to wpływu na analizy. Wynika to z faktu, że wyjściowa funkcja hazardu (nie obserwując żadnych zdarzeń przez ostatnie 13 lat) zakładałaby, że nie było ryzyka śmierci przez następne 87 lat, ponieważ nikt wtedy nie umarł.
Jeśli chcesz, aby solidny HR uzyskał prawidłowe 95% CI i wartości p dla tego, określ
robust=TRUE
w Cox-PH, aby uzyskać standardowe błędy warstwowe. W takim przypadku HR jest HR uśrednionym w czasie, porównującym mężczyzn do kobiet w każdym czasie niepowodzenia.źródło