Jaka jest wartość „

18

Jaka jest wartość podana w podsumowaniu modelu Coxpha w R? Na przykład,R2

Rsquare= 0.186   (max possible= 0.991 )

Głupio włączyłem go jako wartość a recenzent wskoczył na niego, mówiąc, że nie jest świadomy analogii statystyki z klasycznej regresji liniowej opracowanej dla modelu Coxa, a jeśli był, to proszę podać odniesienie. Każda pomoc byłaby świetna!R 2R2R2

danielsbrewer
źródło
1
W większości sytuacji, w których pojęcie wykracza poza klasyczną regresję liniową, jest to kwadratowa korelacja między wartościami obserwowanymi a przewidywanymi w modelu. Czy to może mieć zastosowanie tutaj? R2
Makro
2
Nie, to nie jest z tym związane.
Frank Harrell,

Odpowiedzi:

15

Za pomocą getS3method("summary","coxph")możesz sprawdzić, jak jest obliczany.

Odpowiednie wiersze kodu są następujące:

logtest <- -2 * (cox$loglik[1] - cox$loglik[2])
rval$rsq <- c(rsq = 1 - exp(-logtest/cox$n), maxrsq = 1 - 
        exp(2 * cox$loglik[1]/cox$n))

Oto cox$loglik„wektor długości 2 zawierający logarytmiczne prawdopodobieństwo z wartościami początkowymi i końcowymi wartościami współczynników” (patrz ?coxph.object) i cox$njest „liczbą obserwacji zastosowanych w dopasowaniu”.

Roland
źródło
5
Jeśli się nie mylę, to jest pseudo R-kwadrat Coxa i Snella. Aby uzyskać wyjaśnienie i porównanie różnych pseudo-kwadratów R, patrz ats.ucla.edu/stat/mult_pkg/faq/general/psuedo_rsquareds.htm .
onestop
4

ncoxph

Ronghui Xu
źródło
4
Niepoprawnie, dzielisz przez liczbę obserwacji, bez względu na to, jak dziwnie to brzmi. Na pierwotne pytanie dziwne jest, że recenzent nie byłby świadomy czegoś, co istnieje od 20 lat w modelu Coxa.
Frank Harrell,
Dodając do wymiany między Ronghui Xu i @Frank Harrell, nie tylko brzmi `` dziwnie '' dzieląc przez liczbę obserwacji, ale nie działa. Aby to zobaczyć, rozważ beta ustaloną na pewną wartość, tak aby z grubsza E (R2) = 0,5 i ten sam rozkład zmiennych towarzyszących, tj. Wszystko to samo, oprócz faktu, że Badanie 1 ma dwa razy większą cenzurę niż Badanie 2 Chociaż powinniśmy oszacować tę samą liczbę populacji, szacunki R2 w badaniu 1 będą w przybliżeniu o połowę mniejsze niż w badaniu 2, niezależnie od wielkości próby. Zamiast 0,5 uzyskalibyśmy około 0,25.
R2
W odpowiedzi na uwagę Franka zgodziłbym się, że nie jest to proste i że obserwacja Franka dotycząca zerowego prawdopodobieństwa logarytmu jest poprawna. Zawsze widziałem tę ilość tylko jako przybliżenie do spójnego estymatora dobrze określonej liczby ludności na podstawie zdobywania informacji. Artykuł, do którego odnosi się Ronghui Xu, przeprowadza symulacje. Wskazują one na wpływ cenzury, choć nieobecny, na znacznie słabszy, gdy dzielimy przez liczbę awarii, a nie przez całkowitą liczbę obserwacji.
1
R2