Przeprowadziłem wielowymiarową regresję logistyczną ze zmienną zależną Y
będącą śmiercią w domu opieki w pewnym okresie wejścia i otrzymałem następujące wyniki (zwróć uwagę, że zmienne zaczynają się w A
nim, to ciągła wartość, podczas gdy te rozpoczynające się B
są kategoryczne):
Call:
glm(Y ~ A1 + B2 + B3 + B4 + B5 + A6 + A7 + A8 + A9, data=mydata, family=binomial)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.0728 -0.2167 -0.1588 -0.1193 3.7788
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 20.048631 6.036637 3.321 0.000896 ***
A1 0.051167 0.016942 3.020 0.002527 **
B2 -0.664940 0.304299 -2.185 0.028878 *
B3 -2.825281 0.633072 -4.463 8.09e-06 ***
B4 -2.547931 0.957784 -2.660 0.007809 **
B5 -2.862460 1.385118 -2.067 0.038774 *
A6 -0.129808 0.041286 -3.144 0.001666 **
A7 0.020016 0.009456 2.117 0.034276 *
A8 -0.707924 0.253396 -2.794 0.005210 **
A9 0.003453 0.001549 2.229 0.025837 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 485.10 on 2206 degrees of freedom
Residual deviance: 417.28 on 2197 degrees of freedom
AIC: 437.28
Number of Fisher Scoring iterations: 7
(Intercept) A1 B2 B3 B4 B5 A6 A7 A8 A9
5.093426e+08 1.052499e+00 5.143045e-01 5.929197e-02 7.824340e-02 5.712806e-02 8.782641e-01 1.020218e+00 4.926657e-01 1.003459e+00
2.5 % 97.5 %
(Intercept) 3.703525e+03 7.004944e+13
A1 1.018123e+00 1.088035e+00
B2 2.832698e-01 9.337710e-01
B3 1.714448e-02 2.050537e-01
B4 1.197238e-02 5.113460e-01
B5 3.782990e-03 8.627079e-01
A6 8.099945e-01 9.522876e-01
A7 1.001484e+00 1.039302e+00
A8 2.998207e-01 8.095488e-01
A9 1.000416e+00 1.006510e+00
Jak widać, wszystkie zmienne są „znaczące”, ponieważ ich wartości p są poniżej zwykłego progu 0,05. Jednak patrząc na współczynniki, nie jestem całkiem pewien, co sądzić o tych wynikach. Wydaje się, że chociaż zmienne te przyczyniają się do modelu, patrząc na iloraz szans, nie wydają się mieć tak naprawdę dużej mocy predykcyjnej. Warto zauważyć, że kiedy obliczyłem AUC, otrzymałem około 0,8.
Czy mogę powiedzieć, że ten model lepiej przewiduje przewidywanie śmiertelności (np. Przewidywanie, że seniorzy przeżyją wyznaczony okres) niż przewidywanie śmiertelności?
źródło
Odpowiedzi:
C
Dxy
Jak wspomniano powyżej, model jest prawdopodobnie nadmiernie optymistyczny. Teraz używamy bootstrap do kwantyfikacji optymizmu:
optimism
index.corrected
Możemy również obliczyć krzywą kalibracji za pomocą ponownego próbkowania:
Budowanie modeli predykcyjnych jest dużym tematem i sugeruję przeczytanie notatek Franka Harrella .
źródło
rms
pakietu @COOLSerdash i Nicka.Uwaga na temat interpretacji współczynników: pamiętaj, że zależą one od tego, jak predyktory są zapisywane jako liczby. Zatem dla zmiennych ciągłych zależą one od jednostek, w których są mierzone; w przypadku predyktorów jakościowych schemat kodowania. Nie ulegaj pokusie, aby pomyśleć, że powiedzmy, że A9 jest „nieistotne” tylko dlatego, że jego współczynnik 0,003453 jest niewielki - A9 może wahać się w kilku rzędach wielkości w danej populacji, podczas gdy inne predyktory różnią się tylko nieznacznie, lub może być łatwe do ustawienia na bardzo wysokie lub niskie wartości, podczas gdy inne są trudne do zmiany.
źródło