Czy przejście od ciągłych danych do jakościowych zawsze jest złe?

14

Kiedy czytam o tym, jak skonfigurować dane, często spotykam się z tym, że przekształcanie niektórych ciągłych danych w dane kategoryczne nie jest dobrym pomysłem, ponieważ bardzo dobrze możesz wyciągnąć błędne wnioski, jeśli progi są źle określone.

Jednak obecnie mam pewne dane (wartości PSA dla pacjentów z rakiem prostaty), w których myślę, że powszechny konsensus jest taki, że jeśli masz poniżej 4 lat, prawdopodobnie nie masz go, jeśli jesteś powyżej, jesteś zagrożony, a następnie coś w rodzaju powyżej 10 i 20, prawdopodobnie masz. Coś w tym stylu. W takim przypadku, czy nadal byłoby niewłaściwe kategoryzowanie moich ciągłych wartości PSA na grupy, powiedzmy 0-4, 4-10 i> 10? A może faktycznie jest w porządku, ponieważ progi są „dobrze określone”, że tak powiem.

Denver Dang
źródło
5
To zależy (jak zwykle). Na przykład, jeśli studiujesz, w jaki sposób lekarze będą podejmować decyzje, a oni będą podejmować decyzje na podstawie tych kategorii, wówczas należy zastosować te same kategorie. Jeśli zamiast tego studiujesz biologiczne konsekwencje związane z podwyższonym PSA, najprawdopodobniej w ogóle nie chcesz kategoryzować PSA. Zatem nie ma jednoznacznej odpowiedzi na twoje ogólne pytanie „czy jest w porządku”.
whuber
Co próbujesz zrobić z danymi? Czy takie granice zwykle nie są związane z tym, co chcesz ustalić, więc wprowadzenie ich ręcznie rodzi pytanie?
RemcoGerlich
Przygotowuję dane dla modelu regresji logistycznej. Zatem głównym pytaniem jest, czy po prostu użyć ciągłych danych, czy zamiast tego mieć dyskretne dane.
Denver Dang,
1
Nie jest dla mnie jasne, czym są „ciągłe” dane. To nie jest coś, co istnieje w rzeczywistości. Nie ma czegoś takiego jak pomiar / statystyka z nieskończoną precyzją.
JimmyJames
1
@BillHorvath Tak, nie jestem lekarzem, więc nie jestem całkowicie pewien, jak to ustalono. Jeśli tylko spojrzysz na stronę Wiki, znajdziesz jedno miejsce: „Poziomy PSA między 4 a 10 ng / ml (nanogramów na mililitr) są uważane za podejrzane i należy rozważyć potwierdzenie nieprawidłowego PSA za pomocą powtórnego testu. „ a następnie inne miejsce: „Niskie ryzyko: PSA <10, wynik Gleasona ≤ 6, ORAZ stadium kliniczne ≤ T2a Ryzyko pośrednie: PSA 10-20, wynik Gleasona 7, LUB stadium kliniczne T2b / c Wysokie ryzyko: PSA> 20 , Wynik Gleasona ≥ 8, LUB stadium kliniczne ≥ T3 "
Denver Dang

Odpowiedzi:

23

Czy u twoich progów występuje wyraźna nieciągłość?

Załóżmy na przykład, że masz dwóch pacjentów A i B o wartościach 3,9 i 4,1 oraz kolejnych dwóch pacjentów C i D o wartościach 6,7 i 6,9. Czy różnica w prawdopodobieństwie wystąpienia raka między A i B jest znacznie większa niż odpowiadająca różnica między C i D?

Jeśli tak, dyskretyzacja ma sens.

Jeśli nie, wówczas progi mogą mieć sens w zrozumieniu danych, ale nie są „dobrze określone” w sensie statystycznym. Nie dyskrecjonuj. Zamiast tego użyj wyników testu „tak jak jest”, a jeśli podejrzewasz jakąś nieliniowość, użyj .

Jest to bardzo zalecane.

Stephan Kolassa
źródło
2
Ten link na dole jest pełen świetnych punktów. Przyszli czytelnicy tej odpowiedzi powinni to sprawdzić.
eric_kernfeld
Myślę, że dyskretyzacja nie ma sensu, chyba że nastąpi znaczny skok w wyniku proponowanej przerwy ORAZ, jeśli wynik będzie względnie jednorodny w tych grupach. W przeciwnym razie istnieją lepsze sposoby na podejście do „skoku” w funkcji @ Stephan Kolassa
LSC
1

Myślę, że standardowa odpowiedź brzmi: zawsze jest zła, ponieważ tracisz informacje w procesie. Trudno uwierzyć, że jest jakikolwiek przypadek, w którym można coś zyskać, biorąc dane o naturalnych odstępach czasu i czyniąc je kategorycznymi.

użytkownik54285
źródło
Odpowiednią sytuacją byłoby, gdyby istniała prawdziwa nieciągłość w relacji tego konkretnego x z DV i że w „kategoriach” wynik jest względnie jednorodny.
LSC,