Czy warto stosować regresję logistyczną z wynikiem binarnym i predyktorem?

18

Mam zmienną wyniku binarnego {0,1} i zmienną predykcyjną {0,1}. Uważam, że logistyka nie ma sensu, chyba że dołączę inne zmienne i obliczę iloraz szans.

Czy z jednym predyktorem binarnym wystarczające byłoby obliczenie prawdopodobieństwa vs iloraz szans?

Keval
źródło

Odpowiedzi:

26

W takim przypadku możesz zwinąć swoje dane do gdzie to liczba wystąpień dla oraz z . Załóżmy, że ogólnie jest obserwacji. Sijx=iy=ji,j{0,1}n

XY010S00S011S10S11
Sijx=jay=jotja,jot{0,1}n

Jeśli pasujemy do modelu (gdzie jest naszą funkcją łącza) że jest odsetka sukcesów, gdy a jest odsetka sukcesów, gdy . Innymi słowy, i \ hat \ beta_0 + \ hat \ beta_1 = g \ left ( \ frac {S_ {11}} {S_ {10} + S_ {11}} \ right). g β 0 x i = 0 β 0 + β 1 X i = 1 p 0 = g ( S 01pja=sol-1(xjaT.β)=sol-1(β0+β11xja=1)solβ^0xja=0β^0+β^1xja=1 β 0+ β 1=g(S11

β^0=sol(S.01S.00+S.01)
β^0+β^1=sol(S.11S.10+S.11).

Sprawdźmy, czy to jest R.

n <- 54
set.seed(123)
x <- rbinom(n, 1, .4)
y <- rbinom(n, 1, .6)

tbl <- table(x=x,y=y)

mod <- glm(y ~ x, family=binomial())

# all the same at 0.5757576
binomial()$linkinv( mod$coef[1])
mean(y[x == 0])
tbl[1,2] / sum(tbl[1,])

# all the same at 0.5714286
binomial()$linkinv( mod$coef[1] + mod$coef[2])
mean(y[x == 1])
tbl[2,2] / sum(tbl[2,])

Zatem współczynniki regresji logistycznej są dokładnie transformacjami proporcji pochodzących z tabeli.

Rezultatem jest to, że z pewnością możemy przeanalizować ten zestaw danych za pomocą regresji logistycznej, jeśli mamy dane pochodzące z szeregu zmiennych losowych Bernoulliego, ale okazuje się, że nie różni się to od bezpośredniej analizy wynikowej tabeli zdarzeń.


Chcę skomentować, dlaczego działa to z teoretycznego punktu widzenia. Kiedy dopasowujemy regresję logistyczną, korzystamy z modelu . Następnie decydujemy się modelować średnią jako transformację predyktora liniowego w lub w symbolach . W naszym przypadku mamy tylko dwie unikalne wartości , a zatem istnieją tylko dwie unikalne wartości , powiedzmy i . Z powodu naszego założenia niezależności mamy i Yja|xjaBerno(pja)xjapja=sol-1(β0+β1xja)xjapjap0p1

ja:xja=0Yja=S.01Kosz(n0,p0)
ja:xja=1Yja=S.11Kosz(n1,p1).
Zauważ, że wykorzystujemy fakt, że , a z kolei i , są nielosowe: gdyby tak nie było, niekoniecznie byłyby dwumianowe.xjan0n1

Oznacza to, że

S.01/n0=S.01S.00+S.01pp0 i S.11/n1=S.11S.10+S.11pp1.

Kluczowy wgląd tutaj: nasze RV Bernoulli są podczas gdy nasze dwumianowe RV to , ale oba mają takie samo prawdopodobieństwo sukcesu. To jest powód, dla którego te proporcje tabeli kontyngencji szacują to samo, co regresja logistyczna na poziomie obserwacji. To nie tylko zbieg okoliczności z tabelą: to bezpośrednia konsekwencja przyjętych przez nas założeń dystrybucyjnych.Yja|xja=jotBerno(pjot)S.jot1Kosz(njot,pjot)

jld
źródło
1

Jeśli masz więcej niż jeden predyktor, a wszystkie predyktory są zmiennymi binarnymi, możesz dopasować model za pomocą regresji logicznej [1] (zwróć uwagę, że jest to „logika”, a nie „logistyka”). Jest to przydatne, gdy uważasz, że efekty interakcji między predyktorami są znaczące. Istnieje implementacja w R ( LogicRegpakiet).

[1] Rucziński, I., Kooperberg, C., i LeBlanc, M. (2003). Regresja logiczna. Journal of Computational and grafist Statistics, 12 (3), 475-511.

horaceT
źródło
1
Pytanie dotyczy konkretnie jednego regresora, dlatego twoja odpowiedź lepiej posłużyłaby jako komentarz.
Richard Hardy