Jaki jest wpływ zmiennych dychotomizujących?

Jakie informacje są tracone podczas dychotomizacji zmiennych?
W jaki sposób dychotomizacja pomaga w analizach?

regression data-transformation binary-data Mimi
źródło

Gelman i Park mają artykuł, w którym porównuje się praktykę tworzenia trzech kategorii ze zmiennej kontynuowanej, a nie dwóch. Zwykle najlepiej pozostawić zmienną ciągłą z powodów wyjaśnionych przez inne osoby poniżej.

Michael Bishop,

Odpowiedzi:

Jakie informacje są tracone: To zależy od zmiennej. Ogólnie, poprzez dychotomizację, zapewniasz, że istnieje prosta linia efektu między jedną zmienną a drugą. Rozważmy na przykład ciągłą miarę narażenia na zanieczyszczenie w badaniu nad rakiem. Jeśli podzielisz go na „High” i „Low”, zapewnisz, że są to jedyne dwie ważne wartości. Ryzyko raka jest wysokie, a jedno jest niskie. Ale co, jeśli ryzyko rośnie przez jakiś czas, a następnie spłaszcza się, a następnie ponownie rośnie, zanim w końcu osiągnie wysokie wartości? Wszystko to przepadło.

Co zyskujesz: to łatwiejsze. Zmienne dychotomiczne są często znacznie łatwiejsze do opanowania statystycznego. Istnieją powody, aby to zrobić - jeśli zmienna ciągła wpada dwóch wyraźnych grup w każdym razie , ale unikają dichotomizing chyba jego naturalnej postaci zmiennej w pierwszej kolejności. Często przydaje się również, jeśli twoje pole i tak dychotomizuje rzeczy, aby mieć dychotomizowaną postać zmiennej. Na przykład wielu uważa liczbę komórek CD4 mniejszą niż 400 za krytyczny próg dla HIV. W związku z tym często miałbym zmienną 0/1 dla Above / Poniżej 400, chociaż zachowałbym również zmienną zliczania CD4. Pomaga to w połączeniu badań z innymi.

Nie będę się trochę zgadzać z Peterem. Podczas gdy dzielenie zmiennej ciągłej na kategorie jest często o wiele bardziej sensowne niż prymitywna dychotomizacja, raczej przeciwstawiam się kwantyzacji. Takie kategoryzacje bardzo trudno jest podać sensowne interpretacje. Myślę, że twoim pierwszym krokiem powinno być sprawdzenie, czy istnieje dobrze poparta biologicznie lub klinicznie kategoryzacja, której można użyć, i tylko wtedy, gdy te opcje zostaną wyczerpane, powinieneś użyć kwantyli.

Fomite
źródło

Cześć @epigrad. Myślę, że regresja kwantylowa ma dość łatwą interpretację; jest bardzo podobny do zwykłej regresji OLS, z wyjątkiem zamiany „percentyl XXX” na „średnia”.

Peter Flom - Przywróć Monikę

@PeterFlom Przepraszam, powinienem był być bardziej jasny. Trudno mi je skomponować jako interpretację istotną klinicznie / biologicznie w porównaniu do kategorii skonstruowanych na podstawie dowodów klinicznych / biologicznych. To z mojej strony jest stronnicze nastawienie specyficzne dla danej dziedziny.

Fomite,

Och, OK, @epigrad, to ma sens. Zmienię swoją odpowiedź, aby uwzględnić tę sprawę.

Peter Flom - Przywróć Monikę

Wydaje się, że EpiGrad i @PeterFlom różnie interpretują „regresję kwantową”. EpiGrad mówi o podzieleniu zmiennej X na grupy określone przez kwantyle, podczas gdy Peter Flom mówi o modelowaniu, powiedzmy, 90. kwantyla odpowiedzi zamiast jego średniej.

Aniko,

@Aniko To też może być możliwe. Założyłem (prawdopodobnie niepoprawnie), że Peter miał na myśli kategoryzację danych na kwantyle i wykorzystanie ich w modelu regresji. Wspólna (i irytująca) tendencja w mojej dziedzinie. To może nie być przypadek.

Fomite,

Dychotymizacja dodaje magicznego myślenia do analizy danych. To bardzo rzadko dobry pomysł.

Oto artykuł Roystona, Altmana i Sauerbrei na temat niektórych powodów, dla których jest to zły pomysł.

Moje własne myśli: jeśli dychotomizujesz zmienną zależną, powiedzmy, masę urodzeniową przy 2,5 kg (dzieje się to cały czas), wówczas leczysz dzieci urodzone przy 2,49 kg, tak jak te urodzone przy 1,5 kg, i dzieci urodzone przy 2,51 kg, podobnie jak ci, którzy mają 3,5 kg. To nie ma sensu.

Lepszą alternatywą jest często regresja kwantylowa. Ostatnio napisałem o tym dla NESUG. Ten papier jest tutaj

Jedynym wyjątkiem od powyższego jest fakt, że kategorie są motywowane merytorycznie; na przykład, jeśli pracujesz z zachowaniem podczas jazdy, rozsądne będzie kategoryzowanie na podstawie ustawowego wieku prowadzenia pojazdu.

Peter Flom - Przywróć Monikę
źródło

Pięknie powiedział Piotr. Nie wyobrażam sobie sytuacji, w której dychotomizacja w analizie jest dobrym pomysłem.

Frank Harrell,

Podobały mi się odpowiedzi @ Epigrad i @ Peter. Chciałem tylko dodać, że zmienna przedziału binowania do zmiennej binarnej sprawia, że (potencjalnie) zmienna metryczna jest po prostu porządkowa. W przypadku zmiennej binarnej niewłaściwe jest obliczanie średniej lub wariancji (pomimo tego, że niektórzy to robią) i, jak zauważyłem gdzie indziej , niektóre analizy wielowymiarowe stają się teoretycznie lub logicznie niestosowne. Na przykład myślę, że niewłaściwe jest stosowanie hierarchicznego grupowania centroid / Ward lub analizy czynnikowej ze zmiennymi binarnymi.

Klienci badania często zmuszają nas do dychotomizacji zmiennych na wyjściu, ponieważ myślenie w kategoriach kilku klas zamiast jednej ciągłej cechy jest prostsze, informacja wydaje się mniej mglista i (fałszywie) bardziej nieporęczna.

Istnieją jednak przypadki, w których dychotomizacja może być uzasadniona. Na przykład, gdy występuje silna bimodalność lub gdy analiza (np. MAMBAC lub inna) wykazuje obecność 2 ukrytych klas.

ttnphns
źródło

Trudno mi zrozumieć twój argument. A jeśli klient chce, abyśmy popełnili złą praktykę statystyczną, powinniśmy pomyśleć dwa razy. Uwaga: trichotomise nie jest słowem. Dychotomizacja = dicho (dwa) + tomous (wycięty), więc w przypadku użycia byłoby tritomize / tritomise.

Frank Harrell,

Przejście na klienta było lamentem, a nie kłótnią. Jeśli chodzi o Greka, masz rację; Usunąłem słowo.

ttnphns

Dzięki. Staram się przekładać lament statystyczny na działania naprawcze, o ile jest to po ludzku możliwe, choć jest to intensywny proces edukacyjny z klientem.

Frank Harrell,