Czytam A. Agresti (2007), An Introduction to Categorical Data Analysis , 2nd. wydanie i nie jestem pewien, czy dobrze rozumiem ten ustęp (p.106, 4.2.1) (chociaż powinno to być łatwe):
W Tabeli 3.1 dotyczącej chrapania i chorób serca w poprzednim rozdziale 254 pacjentów zgłaszało chrapanie każdej nocy, z czego 30 miało choroby serca. Jeśli plik danych zawiera zgrupowane dane binarne, wiersz w pliku danych zgłasza te dane jako 30 przypadków choroby serca na podstawie próbki o wielkości 254. Jeśli plik danych zawiera niepogrupowane dane binarne, każda linia w pliku danych odnosi się do osobny podmiot, więc 30 linii zawiera 1 dla choroby serca, a 224 linie zawiera 0 dla choroby serca. Szacunki ML i wartości SE są takie same dla każdego typu pliku danych.
Przekształcenie zestawu niepogrupowanych danych (1 zależne, 1 niezależne) zajęłoby więcej niż „linię” obejmującą wszystkie informacje !?
W poniższym przykładzie tworzony jest (nierealistyczny!) Prosty zestaw danych i budowany jest model regresji logistycznej.
Jak wyglądałyby zgrupowane dane (karta zmiennych?)? Jak można zbudować ten sam model przy użyciu zgrupowanych danych?
> dat = data.frame(y=c(0,1,0,1,0), x=c(1,1,0,0,0))
> dat
y x
1 0 1
2 1 1
3 0 0
4 1 0
5 0 0
> tab=table(dat)
> tab
x
y 0 1
0 2 1
1 1 1
> mod1=glm(y~x, data=dat, family=binomial())
tab <- table(x,y, dnn=c('snoring','disease')); glm(tab ~ as.numeric(rownames(tab)), family=binomial)
działałoby (odwrócenie znaku minus dla współczynników, ponieważ „Tak” ma kod 0 zamiast 1).