Regresja logistyczna ze zmiennymi zależnymi binarnie i niezależnymi

15

Czy właściwe jest wykonanie regresji logistycznej, w której zmienne zależne i niezależne są binarne? na przykład zmienną zależną jest 0 i 1, a predyktorami są zmienne kodowane kontrastowo -1 i 1?

powyżej
źródło

Odpowiedzi:

6

Nie ma powodu, aby tego nie robić, ale dwie przestrogi:

  1. Śledź uważnie podczas analizy, która jest która. W dużych projektach łatwo się zgubić i uzyskać błędne wyniki.

  2. Jeśli zdecydujesz się zgłaszać szacunki regresji, a nie iloraz szans, wyjaśnij swój schemat kodowania w raporcie , aby czytelnicy nie wytwarzali niedokładnych OR na własną rękę, zakładając, że oba zostały zakodowane 0,1.

Może się to wydawać podstawowe, ale widziałem, jak oba problemy przekształcają się w publikowane artykuły.

Fomite
źródło
Czy zatem stosowne byłoby podzielenie pliku danych na 6 oddzielnych przypadków i przeprowadzenie indywidualnych porównań w ramach każdego zestawu danych za pomocą predyktorów kodowanych kontrastowo?
powyżej
Naprawdę nie jestem pewien, o co prosisz o ten drugi kawałek. Czy możesz potwierdzić, co masz nadzieję osiągnąć?
Fomite
Mam zestaw danych z 3 między i 4 w ramach warunków przedmiotowych. Chciałbym przetestować każdy efekt, ale w pojedynczej regresji ze wszystkimi interakcjami brakuje wielu informacji, którymi jestem zainteresowany. Zamiast tego podzieliłem dane według warunków na osobne zestawy danych i uruchomiłem ukierunkowane regresje logistyczne dla każdego zestawu danych z kontrastem kody kodujące różnice,
którymi
aby uzyskać więcej informacji o tym, jak koduję
powyżej
11

Dla jasności: termin „binarny” jest zwykle zarezerwowany tylko dla kodowania 1 vs 0. Bardziej ogólne słowo odpowiednie dla dowolnego kodowania 2-wartościowego to „dychotomiczny”. Dychotomiczne predyktory są oczywiście mile widziane w regresji logistycznej, podobnie jak regresja liniowa, a ponieważ mają tylko 2 wartości, nie ma znaczenia, czy należy wprowadzić je jako czynniki, czy jako zmienne towarzyszące.

ttnphns
źródło
5

Zwykle pomaga to w interpretacji, jeśli kodujesz swoje predyktory 0-1, ale poza tym (i zauważając, że nie jest to wymagane), nie ma w tym nic złego. Istnieją inne podejścia (oparte na tabeli kontyngencji), ale jeśli dobrze pamiętam, okazują się one równoważne (jakiejś formie) regresji logistycznej.

Krótko mówiąc: nie widzę powodu, aby tego nie robić.

Nick Sabbe
źródło
dzięki! A jeśli mam 3 predyktory kodowane kontrastowo i koduję je wszystkie 0–1, to nie będą one ortogonalne. Na przykład mam 4 kategorie, a moje trzy kody to L1: 1, -1,0,0 L2: 0,1, -1,0, L3: 0,0,1, -1. czy to jest problem?
powyżej
Twój przykład macierzy L (L1, L2, L3) to powtarzające się kontrasty, w których każda kategoria jest porównywana z następną kategorią. Ani te predyktory kontrastu nie są ortogonalne, ani binarne (kodowane jako 0-1). W rzeczywistości, ich wartości 0,75 vs -.25 (1 zmienna), 0,5 vs -.5 (2nd zmienna), 0,25 vs -.75 (3rd zmienna)
ttnphns
3

Ponadto, jeśli masz więcej niż dwa predyktory, bardziej prawdopodobne jest, że wystąpiłby problem wielokoliniowości nawet w przypadku regresji logistycznej lub wielokrotnej. Jednak stosowanie regresji logistycznej ze wszystkimi zmiennymi binarnymi (tj. Zakodowanymi (0,1)) nie jest szkodliwe.

statystyki miłości
źródło