Traktowanie poziomów zmiennych kategorialnych „Nie wiem / Odmówiono”

9

Modeluję prognozę cukrzycy za pomocą regresji logistycznej. Wykorzystanym zestawem danych jest behawioralny system monitorowania czynników ryzyka (BRFSS) Centrum Kontroli Chorób (CDC). Jedną z niezależnych zmiennych jest wysokie ciśnienie krwi. Jest podzielony na kategorie z następującymi poziomami: „Tak”, „Nie”, „Nie wiem / Odmowa”. Czy podczas usuwania modelu należy usunąć te wiersze za pomocą opcji „Nie wiem / Odmówiono”? Jaką różnicę ma zachowanie lub usunięcie tych wierszy z modelu?

użytkownik3897
źródło

Odpowiedzi:

6

Zastanawiałem się właśnie nad tym samym pytaniem, analizując najnowsze dane National Discharge Survey Survey . Kilka zmiennych ma istotne brakujące wartości, takie jak stan cywilny i rodzaj postępowania. Zagadnienie to zwróciło moją uwagę, ponieważ te kategorie wykazały silne (i znaczące) efekty w większości analiz regresji logistycznej, które prowadziłem.

Można się zastanawiać, dlaczegopodany jest brakujący kod. Na przykład w przypadku stanu cywilnego prawdopodobne jest, że niepodanie tych informacji może być powiązane z ważnymi czynnikami, takimi jak status społeczno-ekonomiczny lub rodzaj choroby. W przypadku wysokiego ciśnienia krwi powinniśmy zapytać, dlaczego wartość nie byłaby znana lub odrzucona? Może to być związane z praktykami w instytucji (być może odzwierciedlającymi luźne procedury) lub nawet z jednostkami (takimi jak przekonania religijne). Te cechy z kolei mogą być związane z cukrzycą. Dlatego wydaje się rozsądne, aby kontynuować tak, jak masz, zamiast kodować te wartości jako brakujące (tym samym całkowicie wykluczając je z analizy) lub próbować przypisywać wartości (co skutecznie maskuje dostarczone przez nich informacje i może wpływać na wyniki). Naprawdę nie jest to trudniejsze: musisz tylko upewnić się, że ta zmienna jest traktowana jako kategoryczna i uzyskasz jeszcze jeden współczynnik w wyniku regresji. Ponadto podejrzewam, że zestawy danych BRFSS są na tyle duże, że nie musisz się martwić o moc.

Whuber
źródło
2
Ponadto DK może mieć prawdziwe znaczenie, tj. Osoby te nie są świadome zdrowia i mogą być zagrożone.
Brandon Bertelsen
2

Najpierw musisz przemyśleć, czy brakuje brakujących danych całkowicie losowo (MCAR), brakuje losowo (MAR) lub brakuje losowo (MNAR), ponieważ usunięcie (innymi słowy analiza pełnego przypadku) może prowadzić do stronniczych wyników. Alternatywami są odwrotna waga prawdopodobieństwa, wielokrotna imputacja, metoda pełnego prawdopodobieństwa i metody podwójnie niezawodne. Wielokrotna imputacja z połączonymi równaniami (MYSZ) to często najłatwiejsza droga.

GaBorgulya
źródło
Dziękuję Ci. To dane z ankiety i nie jestem pewien, czy to MAR, czy MNAR. Na przykład istnieje zmienna, która mówi 1) „czy dana osoba ma cukrzycę, czy nie?” i inna zmienna (2) Czy przyjmuje on insulinę? Widzę, że zmienna (2) ma wpisy tylko wtedy, gdy zmienna (1) ma wartość „Tak” (tj. Osoba cierpi na cukrzycę). W przeciwnym razie (2) jest pusta. Dodatkowo (2) ma odpowiedzi „tak”, „nie”, „nie wiem / odmówiono” jako odpowiedzi w przypadku cukrzycy. Jak więc traktować puste komórki i odpowiedzi w ankiecie „Nie wiem / Odmówiłem”?
user3897
Chciałbym dowiedzieć się o wielokrotnym przypisaniu i szukałem materiałów do nauki online. Czy możesz zasugerować jakiś materiał do nauki MI?
user3897
0

Czy masz powód, by sądzić, że badani z cukrzycą częściej lub rzadziej kończą z odpowiedzią DK / R? Jeśli nie (i byłbym bardzo zaskoczony, gdy się dowiedziałeś), włączenie tego predyktora w modelu bez wykluczenia tych przypadków spowoduje hałas. Oznacza to, że skończysz z mniejszą precyzją w ocenie, w jaki sposób „tak” vs. „nie” wpływa na oszacowane prawdopodobieństwo cukrzycy (ponieważ będziesz próbował modelować wpływ „tak” lub „nie” vs. losowe odpowiedzi DK / R w przeciwieństwie do po prostu „tak” vs. „nie”). Najprostszą opcją jest wykluczenie przypadków z odpowiedziami DK / R. Zakładając, że ich odpowiedzi „tak / nie” rzeczywiście brakowało losowo, wykluczenie ich nie będzie wpływać na twoje oszacowanie wpływu „tak” vs. "Nie." Takie podejście zmniejszy jednak wielkość próby, a tym samym zmniejszy moc statystyczną w odniesieniu do pozostałych predyktorów. Jeśli masz dużo DK / R dla tej zmiennej, możesz chcieć przypisać odpowiedzi „tak” / „nie” przez wielokrotne przypisanie (prawdopodobnie najbardziej, być może jedyna, możliwa do obrony strategia przypisywania brakującej wartości).

dmk38
źródło