Czy właściwe jest wykonanie regresji logistycznej, w której zmienne zależne i niezależne są binarne? na przykład zmienną zależną jest 0 i 1, a predyktorami są zmienne kodowane kontrastowo -1 i 1?
15
Nie ma powodu, aby tego nie robić, ale dwie przestrogi:
Śledź uważnie podczas analizy, która jest która. W dużych projektach łatwo się zgubić i uzyskać błędne wyniki.
Jeśli zdecydujesz się zgłaszać szacunki regresji, a nie iloraz szans, wyjaśnij swój schemat kodowania w raporcie , aby czytelnicy nie wytwarzali niedokładnych OR na własną rękę, zakładając, że oba zostały zakodowane 0,1.
Może się to wydawać podstawowe, ale widziałem, jak oba problemy przekształcają się w publikowane artykuły.
Dla jasności: termin „binarny” jest zwykle zarezerwowany tylko dla kodowania 1 vs 0. Bardziej ogólne słowo odpowiednie dla dowolnego kodowania 2-wartościowego to „dychotomiczny”. Dychotomiczne predyktory są oczywiście mile widziane w regresji logistycznej, podobnie jak regresja liniowa, a ponieważ mają tylko 2 wartości, nie ma znaczenia, czy należy wprowadzić je jako czynniki, czy jako zmienne towarzyszące.
źródło
Zwykle pomaga to w interpretacji, jeśli kodujesz swoje predyktory 0-1, ale poza tym (i zauważając, że nie jest to wymagane), nie ma w tym nic złego. Istnieją inne podejścia (oparte na tabeli kontyngencji), ale jeśli dobrze pamiętam, okazują się one równoważne (jakiejś formie) regresji logistycznej.
Krótko mówiąc: nie widzę powodu, aby tego nie robić.
źródło
Ponadto, jeśli masz więcej niż dwa predyktory, bardziej prawdopodobne jest, że wystąpiłby problem wielokoliniowości nawet w przypadku regresji logistycznej lub wielokrotnej. Jednak stosowanie regresji logistycznej ze wszystkimi zmiennymi binarnymi (tj. Zakodowanymi (0,1)) nie jest szkodliwe.
źródło