Kiedy czytam o tym, jak skonfigurować dane, często spotykam się z tym, że przekształcanie niektórych ciągłych danych w dane kategoryczne nie jest dobrym pomysłem, ponieważ bardzo dobrze możesz wyciągnąć błędne wnioski, jeśli progi są źle określone.
Jednak obecnie mam pewne dane (wartości PSA dla pacjentów z rakiem prostaty), w których myślę, że powszechny konsensus jest taki, że jeśli masz poniżej 4 lat, prawdopodobnie nie masz go, jeśli jesteś powyżej, jesteś zagrożony, a następnie coś w rodzaju powyżej 10 i 20, prawdopodobnie masz. Coś w tym stylu. W takim przypadku, czy nadal byłoby niewłaściwe kategoryzowanie moich ciągłych wartości PSA na grupy, powiedzmy 0-4, 4-10 i> 10? A może faktycznie jest w porządku, ponieważ progi są „dobrze określone”, że tak powiem.
źródło
Odpowiedzi:
Czy u twoich progów występuje wyraźna nieciągłość?
Załóżmy na przykład, że masz dwóch pacjentów A i B o wartościach 3,9 i 4,1 oraz kolejnych dwóch pacjentów C i D o wartościach 6,7 i 6,9. Czy różnica w prawdopodobieństwie wystąpienia raka między A i B jest znacznie większa niż odpowiadająca różnica między C i D?
Jeśli tak, dyskretyzacja ma sens.
Jeśli nie, wówczas progi mogą mieć sens w zrozumieniu danych, ale nie są „dobrze określone” w sensie statystycznym. Nie dyskrecjonuj. Zamiast tego użyj wyników testu „tak jak jest”, a jeśli podejrzewasz jakąś nieliniowość, użyj splajnów .
Jest to bardzo zalecane.
źródło
Myślę, że standardowa odpowiedź brzmi: zawsze jest zła, ponieważ tracisz informacje w procesie. Trudno uwierzyć, że jest jakikolwiek przypadek, w którym można coś zyskać, biorąc dane o naturalnych odstępach czasu i czyniąc je kategorycznymi.
źródło