W takim przypadku możesz zwinąć swoje dane do
gdzie to liczba wystąpień dla oraz z . Załóżmy, że ogólnie jest obserwacji. Sijx=iy=ji,j∈{0,1}n
X∖Y010S00S101S01S11
Sijx = iy= ji , j ∈ { 0 , 1 }n
Jeśli pasujemy do modelu (gdzie jest naszą funkcją łącza) że jest odsetka sukcesów, gdy a jest odsetka sukcesów, gdy . Innymi słowy,
i
\ hat \ beta_0 + \ hat \ beta_1 = g \ left ( \ frac {S_ {11}} {S_ {10} + S_ {11}} \ right).
g β 0 x i = 0 β 0 + β 1 X i = 1 p 0 = g ( S 01pja= g- 1( xT.jaβ) = g- 1( β0+ β11xja= 1)solβ^0xja= 0β^0+ β^1xja= 1 β 0+ β 1=g(S11
β^0= g( S01S.00+ S01)
β^0+ β^1= g( S11S.10+ S11) .
Sprawdźmy, czy to jest R
.
n <- 54
set.seed(123)
x <- rbinom(n, 1, .4)
y <- rbinom(n, 1, .6)
tbl <- table(x=x,y=y)
mod <- glm(y ~ x, family=binomial())
# all the same at 0.5757576
binomial()$linkinv( mod$coef[1])
mean(y[x == 0])
tbl[1,2] / sum(tbl[1,])
# all the same at 0.5714286
binomial()$linkinv( mod$coef[1] + mod$coef[2])
mean(y[x == 1])
tbl[2,2] / sum(tbl[2,])
Zatem współczynniki regresji logistycznej są dokładnie transformacjami proporcji pochodzących z tabeli.
Rezultatem jest to, że z pewnością możemy przeanalizować ten zestaw danych za pomocą regresji logistycznej, jeśli mamy dane pochodzące z szeregu zmiennych losowych Bernoulliego, ale okazuje się, że nie różni się to od bezpośredniej analizy wynikowej tabeli zdarzeń.
Chcę skomentować, dlaczego działa to z teoretycznego punktu widzenia. Kiedy dopasowujemy regresję logistyczną, korzystamy z modelu . Następnie decydujemy się modelować średnią jako transformację predyktora liniowego w lub w symbolach . W naszym przypadku mamy tylko dwie unikalne wartości , a zatem istnieją tylko dwie unikalne wartości , powiedzmy i . Z powodu naszego założenia niezależności mamy
i
Yja|xja∼⊥Berno ( sja)xjapja= g- 1( β0+ β1xja)xjapjap0p1
∑i : xja= 0Yja= S01∼ Bin ( n0, p0)
∑i : xja= 1Yja= S11∼ Bin ( n1, p1) .
Zauważ, że wykorzystujemy fakt, że , a z kolei i , są nielosowe: gdyby tak nie było, niekoniecznie byłyby dwumianowe.
xjan0n1
Oznacza to, że
S.01/ n0= S01S.00+ S01→pp0 i S.11/ n1= S11S.10+ S11→pp1.
Kluczowy wgląd tutaj: nasze RV Bernoulli są podczas gdy nasze dwumianowe RV to , ale oba mają takie samo prawdopodobieństwo sukcesu. To jest powód, dla którego te proporcje tabeli kontyngencji szacują to samo, co regresja logistyczna na poziomie obserwacji. To nie tylko zbieg okoliczności z tabelą: to bezpośrednia konsekwencja przyjętych przez nas założeń dystrybucyjnych.Yja| xja= j ∼ Bern ( sjot)S.j 1∼ Bin ( njot, pjot)