Modelowanie parametryczne wariancji danych zliczeniowych

12

Szukam do modelowania niektórych danych, ale nie jestem pewien, jakiego rodzaju modelu mogę użyć. Mam dane zliczania i chcę model, który da parametryczne oszacowania zarówno średniej, jak i wariancji danych. Oznacza to, że mam różne czynniki predykcyjne i chcę ustalić, czy którykolwiek z nich wpływa na wariancję (nie tylko średnią grupy).

Wiem, że regresja Poissona nie zadziała, ponieważ wariancja jest równa średniej; to założenie jest nieważne w moim przypadku, więc wiem, że występuje nadmierna dyspersja. Jednak ujemny model dwumianowy generuje tylko jeden parametr nadmiernej dyspersji, a nie taki, który jest funkcją predyktorów w modelu. Jaki model może to zrobić?

Ponadto mile widziane byłoby odniesienie do książki lub papieru omawiającego model i / lub pakiet R, który implementuje model.

Brian Diggs
źródło
1
Skąd wiesz, że występuje nadmierna dyspersja bez uprzedniej regresji Poissona? W końcu porównywanie wariancji wartości surowych (odpowiedzi) z ich średnią nie ma znaczenia: liczy się dobroć dopasowania modelu Poissona (jest to analogia oceny rozkładu reszt w modelu liniowym w porównaniu do oceny rozkład zmiennej odpowiedzi). Innym sposobem na wyrażenie tego jest to, że połączenie między zmiennymi niezależnymi a odpowiedzią może powodować wrażenie nadmiernej dyspersji nawet w bardzo dokładnym modelu Poissona.
whuber
2
@whuber To słuszna uwaga. W przypadku pojedynczego predyktora jakościowego analizującego wariancję i średnią podgrup wystarczyłoby do wykrycia nadmiernej dyspersji, ale w przypadku wieloczynnikowej regresji Poissona tak nie jest. Dla celów argumentu załóżmy, że zarówno regresja dwumianowa Poissona, jak i ujemna zostały wykonane, a ujemny dwumian wykazuje lepsze dopasowanie poprzez porównanie modelu anova. To powinno wskazywać na nadmierną dyspersję. Biorąc to pod uwagę, w jaki sposób wariancję / nadmierną dyspersję można modelować parametrycznie, a nie jako stałą?
Brian Diggs,
1
Myślę, że w McCullagh i Nelder znajduje się rozdział , Uogólnione modele liniowe, 2. edycja , który to obejmuje (ale moja kopia jest w pracy) ... nie będzie realnego prawdopodobieństwa, ale można użyć quasi-prawdopodobieństwa i tak, aby może być tytułem rozdziału. Stosujesz iteracyjnie ponownie ważone najmniejsze kwadraty, nawet jeśli nie ma odpowiedniego modelu prawdopodobieństwa.
Karl,
Rozdział 10 McCullagh i Nelder omawia wspólne modelowanie średniej i dyspersji, tj. Parametryzację zarówno średniej, jak i wariancji. Rozszerzone quasi-prawdopodobieństwo jest głównym narzędziem, ale w niektórych sytuacjach mogą pojawić się obawy dotyczące tej metody
gość

Odpowiedzi:

9

Możesz modelować sam parametr ujemnej dyspersji dwumianowej jako funkcję zmiennych i parametrów za pomocą pakietu gamlss w R. Zapewniam fragment wstępu do niego:

Dlaczego powinienem używać GAMLSS

Jeśli zmienną odpowiedzi są dane zliczające (dyskretne), jest bardzo prawdopodobne, że rozkład Poissona nie będzie dobrze pasował. GAMLSS zapewnia różnorodne rozkłady dyskretne (w tym dwumianowy ujemny), które można wypróbować. Parametr dyspersji można również modelować jako funkcję zmiennych objaśniających.

Strona internetowa www.gamlss.org zawiera dokumentację i linki do kilku artykułów na temat podejść zastosowanych w pakiecie.

łucznik
źródło
Obie odpowiedzi są pomocne i zapewniają dobre referencje. Przyznam nagrodę za tę, ponieważ (a) poprzedza drugą o cztery minuty i (b) rozwiązanie gamlss jest dla mnie nowe (znam nbreg). Ale czapki z głów przed @timbp za dobrą odpowiedź; Mam nadzieję, że nadal będziesz przyczyniać się do naszej strony.
whuber
2
@ Whuber, byłem również rozdarty, aby zaakceptować odpowiedź „bo”, ponieważ obie były bardzo pomocne. Poszedłem z tym, ponieważ zawiera on odwołanie do pakietu R, którego mogę użyć; odniesienie do książki w drugiej odpowiedzi było dobre i nie powinno być pomijane. Dziękujemy za zaoferowanie nagrody, która skłoniła te dwie dobre odpowiedzi.
Brian Diggs,
9

Stata udostępnia polecenie -gnbreg-, które pozwala modelować parametr dyspersji. Pomoc do Staty można wyświetlić na stronie http://www.stata.com/help.cgi?nbreg

Stata nazywa to uogólnionym ujemnym dwumianowym modelem. Joseph Hilbe omawia to w swojej książce „Negative Binomial Regression”, sekcja 10.4, jako „NB-H: Heterogeniczna ujemna regresja dwumianowa”.

timbp
źródło