Poprosiliśmy 60 osób o podanie jak największej liczby franczyz restauracyjnych w Atlancie. Ogólna lista obejmowała ponad 70 restauracji, ale wyeliminowaliśmy te, o których wspomniało mniej niż 10% osób, pozostawiając nam 45. Dla tych 45 obliczyliśmy odsetek informatorów, którzy wymienili franczyzę, i jesteśmy zainteresowani modelowanie tej proporcji jako funkcji budżetu reklamowego franczyzy (przekształconego w dziennik) i lat, które stały się franczyzą.
Więc napisałem ten kod:
model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)
Zgodnie z przewidywaniami obie zmienne wykazują silne, znaczące efekty.
Ale chociaż wiem, że danych proporcjonalnych nigdy nie należy modelować za pomocą regresji OLS, napisałem ten kod:
model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)
W tym przypadku „budżet” jest nadal znaczącym predyktorem, ale „lata” są stosunkowo słabe i nieistotne.
Niepokoi mnie to, że zaufanie do szacunków jest sztucznie zawyżone przez agregację. Czy dwumianowy glm zasadniczo wektoryzuje dane tak, że model jest oparty na 45 * 55 = 2475 wierszach? Czy jest to właściwe, biorąc pod uwagę, że tak naprawdę jest tylko 45 restauracji i 55 informatorów? Czy to wymagałoby modelowania efektów mieszanych?
źródło
family=quasibinomial
lm
iglm(...,family=binomial)
, ale jedną z najważniejszych jest to, że dwumianowy GLM przyjmuje silne założenia dotyczące wariancji. Jeśli dane nie są rozproszone, agregacja / dezagregacja nie ma znaczenia.Odpowiedzi:
Teraz, jeśli niezmieniona linia regresji (najlepiej regresja dwuwymiarowa, np. Regresja Deminga) nie przechodzi prawdopodobnie {{0,0}), to staje się nieco bardziej skomplikowana, a jedna minimalizuje funkcję kompensacji straty proporcjonalnej zamiast używać zwykłego najmniej kwadraty.
źródło