Załóżmy, że zbudowałem model predykcyjny dla wystąpienia określonej choroby w jednym zestawie danych (zestaw danych budowania modelu) i teraz chcę sprawdzić, jak dobrze model działa w nowym zestawie danych (zestaw danych sprawdzania poprawności). Dla modelu zbudowanego z regresją logistyczną obliczałbym przewidywane prawdopodobieństwo dla każdej osoby w zbiorze danych sprawdzania poprawności na podstawie współczynników modelu uzyskanych z zestawu danych budowania modelu, a następnie, po podzieleniu tych prawdopodobieństw na pewną wartość odcięcia, mogę zbudować tabelę 2x2 co pozwala mi obliczyć prawdziwą stopę dodatnią (czułość) i prawdziwą stopę ujemną (specyficzność). Co więcej, mogę skonstruować całą krzywą ROC, zmieniając wartość odcięcia, a następnie uzyskać AUC dla wykresu ROC.
Załóżmy teraz, że mam dane o przetrwaniu. Użyłem więc proporcjonalnego modelu zagrożeń Coxa w zestawie danych budynku modelu i teraz chcę sprawdzić, jak dobrze model działa w zestawie danych sprawdzania poprawności. Ponieważ ryzyko podstawowe nie jest funkcją parametryczną w modelach Coxa, nie widzę, w jaki sposób mogę uzyskać przewidywane prawdopodobieństwo przeżycia dla każdej osoby w zbiorze danych sprawdzania poprawności na podstawie współczynników modelu uzyskanych w zbiorze danych modelu. Więc jak mogę przejść do sprawdzenia, jak dobrze model działa w zestawie danych sprawdzania poprawności? Czy istnieją ustalone metody, aby to zrobić? A jeśli tak, czy są one zaimplementowane w jakimkolwiek oprogramowaniu? Z góry dziękuję za wszelkie sugestie!
źródło
Wiem, że to pytanie jest dość stare, ale to, co zrobiłem, gdy napotkałem ten sam problem, polegało na użyciu funkcji przewidywania, aby uzyskać „wynik” dla każdego przedmiotu w zestawie sprawdzania poprawności. Następnie podzielono uczestników według tego, czy wynik był wyższy czy niższy niż mediana i wykreślono krzywą Kaplana-Meiera. To powinno pokazywać rozdzielenie podmiotów, jeśli Twój model jest predykcyjny. Testowałem również korelację wyniku (w rzeczywistości jego ln [dla rozkładu normalnego]) z przeżywalnością przy użyciu funkcji Coxpha z pakietu przeżycia w R.
źródło