Zrozumienie parametrów wewnątrz ujemnego rozkładu dwumianowego

37

Starałam się dopasować swoje dane w różnych modelach i zorientowali się, że fitdistrfunkcja z biblioteki MASSz Rdaje mi Negative Binomialjak najlepszego dopasowania. Teraz ze strony wiki definicja jest podana jako:

Rozkład NegBin (r, p) opisuje prawdopodobieństwo k awarii i r sukcesów w próbach k + r Bernoulli (p) z sukcesem w ostatniej próbie.

Wykorzystanie Rdo wykonania dopasowania modelu daje mi dwa parametry meani dispersion parameter. Nie rozumiem, jak je interpretować, ponieważ nie widzę tych parametrów na stronie wiki. Widzę tylko następującą formułę:

Formuła ujemnego rozkładu dwumianowego

gdzie kjest liczba obserwacji i r=0...n. Jak teraz powiązać je z parametrami podanymi przez R? Plik pomocy również nie zawiera wielu informacji.

Powiem też kilka słów o moim eksperymencie: w przeprowadzonym przeze mnie eksperymencie społecznym starałem się policzyć liczbę osób, z którymi kontaktował się użytkownik w ciągu 10 dni. Wielkość populacji wynosiła 100 dla eksperymentu.

Teraz, jeśli model pasuje do dwumianu ujemnego, mogę na ślepo powiedzieć, że wynika z tego rozkładu, ale naprawdę chcę zrozumieć intuicyjne znaczenie tego. Co to znaczy powiedzieć, że liczba osób, z którymi kontaktowali się moi badani, ma ujemny rozkład dwumianowy? Czy ktoś może pomóc w wyjaśnieniu tego?

Legenda
źródło

Odpowiedzi:

42

kθ1/θθ

Ben Bolker
źródło
7
hmm Zastanawiam się, dlaczego głosowanie negatywne?
Ben Bolker,
Formuła NB (średnia, dyspersja) jest również opisana w sekcji alternatywnych formulacji ( en.wikipedia.org/wiki/... ) teraz na tej stronie wiki.
mt1022
10

Jak wspomniałem w moim wcześniejszym poście do ciebie, pracuję nad tym, aby zastanowić się nad dopasowaniem dystrybucji do liczenia danych. Oto, czego się nauczyłem:

Gdy wariancja jest większa niż średnia, widoczna jest nadmierna dyspersja, a zatem ujemny rozkład dwumianowy jest prawdopodobnie odpowiedni. Jeśli wariancja i średnia są takie same, sugerowany jest rozkład Poissona, a gdy wariancja jest mniejsza niż średnia, zalecany jest rozkład dwumianowy.

Z danymi zliczania, nad którymi pracujesz, korzystasz z „ekologicznej” parametryzacji funkcji ujemnego dwumianu w R. Sekcja 4.5.1.3 (strona 165) poniższej, ogólnodostępnej książki mówi o tym konkretnie (w kontekście R, nie mniej!) i mam nadzieję, że odpowie na niektóre z twoich pytań:

http://www.math.mcmaster.ca/~bolker/emdbook/book.pdf

Jeśli dojdziesz do wniosku, że twoje dane są obcięte przez zero (tj. Prawdopodobieństwo 0 obserwacji wynosi 0), możesz chcieć sprawdzić smak NBD obcięty przez zero, który znajduje się w pakiecie R VGAM .

Oto przykład jego zastosowania:

library(VGAM)

someCounts = data.frame(n = c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16),
                     freq = c(182479,76986,44859,24315,16487,15308,5736,
                              2843,1370,1115,1127,49,100,490,106,2))

fit = vglm(n ~ 1, posnegbinomial, control = vglm.control(maxit = 1000), weights=freq,
           data=someCounts)

Coef(fit)

pdf2 = dposnegbin(x=with(someCounts, n), munb=0.8344248, size=0.4086801)

print( with(someCounts, cbind(n, freq, fitted=pdf2*sum(freq))), dig=9)

Mam nadzieję, że to jest pomocne.

Jeff Tyzzer
źródło
Strona 165 w książce.
SmallChess