Dowiedziałem się o modelu proporcjonalnego hazardu Coxa. Mam dużo doświadczenia okucia modele regresji logistycznej, a więc budować modele intuicji Byłem porównujące dopasowuje się stosując coxph
od R „przetrwania” ze modele regresji logistycznej dopasowuje się stosując glm
przy family="binomial"
.
Jeśli uruchomię kod:
library(survival)
s = Surv(time=lung$time, event=lung$status - 1)
summary(coxph(s ~ age, data=lung))
summary(glm(status-1 ~ age, data=lung, family="binomial"))
Dostaję wartości p dla wieku odpowiednio 0,0419 i 0,0254. Podobnie jeśli używam seksu jako predyktora, z wiekiem lub bez.
Uważam to za zagadkowe, ponieważ uważam, że uwzględnienie czasu, który upłynął przy dopasowaniu modelu, dałoby więcej mocy statystycznej niż tylko traktowanie śmierci jako wyniku binarnego, podczas gdy wartości p wydawałyby się spójne z tym, że ma on mniejszą moc statystyczną. Co tu się dzieje?
Odpowiedzi:
Model regresji logistycznej zakłada, że odpowiedzią jest próba Bernoulliego (lub bardziej ogólnie dwumianowa, ale dla uproszczenia utrzymamy ją 0-1). Model przetrwania zakłada, że reakcja jest zazwyczaj czasem na zdarzenie (ponownie, istnieją uogólnienia tego, które pomijamy). Innym sposobem jest to, że jednostki przechodzą przez szereg wartości, aż do wystąpienia zdarzenia. Nie jest tak, że moneta jest dyskretnie rzucana w każdym punkcie. ( Może się to oczywiście zdarzyć, ale wtedy potrzebujesz modelu do powtarzanych pomiarów - być może GLMM).
Twój model regresji logistycznej traktuje każdą śmierć jako rzut monetą, który miał miejsce w tym wieku i pojawił się ogon. Podobnie, uważa każdy cenzurowany układ odniesienia za pojedynczą monetę, która wystąpiła w określonym wieku i pojawiła się w głowach. Problem polega na tym, że jest to niezgodne z rzeczywistymi danymi.
Oto niektóre wykresy danych i dane wyjściowe modeli. (Zauważ, że przerzucam przewidywania z modelu regresji logistycznej na przewidywanie, że żyje, aby linia pasowała do wykresu gęstości warunkowej.)
Pomocne może być rozważenie sytuacji, w której dane były odpowiednie do analizy przeżycia lub regresji logistycznej. Wyobraź sobie badanie mające na celu określenie prawdopodobieństwa, że pacjent zostanie ponownie przyjęty do szpitala w ciągu 30 dni od wypisu na podstawie nowego protokołu lub standardu opieki. Jednak wszyscy pacjenci są monitorowani o readmisję i nie ma cenzury (to nie jest strasznie realistyczne), więc dokładny czas na readmisję można przeanalizować za pomocą analizy przeżycia (tj. Tutaj model ryzyka proporcjonalnego Coxa). Aby zasymulować tę sytuację, użyję rozkładów wykładniczych ze współczynnikami .5 i 1 oraz użyję wartości 1 jako wartości granicznej reprezentującej 30 dni:
W tym przypadku widzimy, że wartość p z modelu regresji logistycznej (
0.163
) była wyższa niż wartość p z analizy przeżycia (0.005
). Aby dalej badać ten pomysł, możemy rozszerzyć symulację, aby oszacować moc analizy regresji logistycznej w porównaniu z analizą przeżycia, oraz prawdopodobieństwo, że wartość p z modelu Coxa będzie niższa niż wartość p z regresji logistycznej . Użyję również wartości progowej 1,4, aby nie zaszkodzić regresji logistycznej poprzez użycie suboptymalnego odcięcia:Zatem moc regresji logistycznej jest niższa (około 75%) niż analiza przeżycia (około 93%), a 90% wartości p z analizy przeżycia było niższe niż odpowiadające im wartości p z regresji logistycznej. Biorąc pod uwagę czasy opóźnienia, zamiast tylko mniejszego lub większego niż pewien próg, daje więcej mocy statystycznej, jak sobie wyobrażałeś.
źródło