Czy dane te można agregować w proporcje dla dwumianowego glm?

11

Poprosiliśmy 60 osób o podanie jak największej liczby franczyz restauracyjnych w Atlancie. Ogólna lista obejmowała ponad 70 restauracji, ale wyeliminowaliśmy te, o których wspomniało mniej niż 10% osób, pozostawiając nam 45. Dla tych 45 obliczyliśmy odsetek informatorów, którzy wymienili franczyzę, i jesteśmy zainteresowani modelowanie tej proporcji jako funkcji budżetu reklamowego franczyzy (przekształconego w dziennik) i lat, które stały się franczyzą.

Więc napisałem ten kod:

model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)

Zgodnie z przewidywaniami obie zmienne wykazują silne, znaczące efekty.

Ale chociaż wiem, że danych proporcjonalnych nigdy nie należy modelować za pomocą regresji OLS, napisałem ten kod:

model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)

W tym przypadku „budżet” jest nadal znaczącym predyktorem, ale „lata” są stosunkowo słabe i nieistotne.

Niepokoi mnie to, że zaufanie do szacunków jest sztucznie zawyżone przez agregację. Czy dwumianowy glm zasadniczo wektoryzuje dane tak, że model jest oparty na 45 * 55 = 2475 wierszach? Czy jest to właściwe, biorąc pod uwagę, że tak naprawdę jest tylko 45 restauracji i 55 informatorów? Czy to wymagałoby modelowania efektów mieszanych?

Jeremy _
źródło
4
wskazówka: zobacz, co się stanie zfamily=quasibinomial
Ben Bolker,
1
Ciekawy. Oszacowane współczynniki są takie same, ale błędy standardowe są bardziej zachowawcze (a lata w modelu quasibinomial nie są znaczące). Szukam plików pomocy dla quasibinomial, ale czy możesz wyjaśnić, co się dzieje? Mam wrażenie, że quasibinomial jest używany przede wszystkim do naddyspersji. . .
Jeremy _
3
Dokładnie. Istnieje wiele różnic między lmi glm(...,family=binomial), ale jedną z najważniejszych jest to, że dwumianowy GLM przyjmuje silne założenia dotyczące wariancji. Jeśli dane nie są rozproszone, agregacja / dezagregacja nie ma znaczenia.
Ben Bolker,
1
Wyjście R pokazuje, że parametr dyspersji przyjmuje się jako 8,7. Próbuję dowiedzieć się, co to mówi o nadmiernej dyspersji. Tymczasem Ben, widzę, że masz dość dużo tła z mieszanymi modelami. Czy mogę bezpiecznie używać dwumianowego glm bez mieszanych efektów dla informatora lub franczyzy (w takim przypadku prawdopodobnie musiałbym wektoryzować wszystkie dane podczas dodawania kolumny dla „identyfikatora informatora”)?
Jeremy _

Odpowiedzi:

1

Y=doX1k1X2)k2)...Xnknln(Y)=ln(do)+k1ln(X1)+k2)ln(X2))...+knln(Xn)R2)

Teraz, jeśli niezmieniona linia regresji (najlepiej regresja dwuwymiarowa, np. Regresja Deminga) nie przechodzi prawdopodobnie {{0,0}), to staje się nieco bardziej skomplikowana, a jedna minimalizuje funkcję kompensacji straty proporcjonalnej zamiast używać zwykłego najmniej kwadraty.

Carl
źródło