Starałam się dopasować swoje dane w różnych modelach i zorientowali się, że fitdistr
funkcja z biblioteki MASS
z R
daje mi Negative Binomial
jak najlepszego dopasowania. Teraz ze strony wiki definicja jest podana jako:
Rozkład NegBin (r, p) opisuje prawdopodobieństwo k awarii i r sukcesów w próbach k + r Bernoulli (p) z sukcesem w ostatniej próbie.
Wykorzystanie R
do wykonania dopasowania modelu daje mi dwa parametry mean
i dispersion parameter
. Nie rozumiem, jak je interpretować, ponieważ nie widzę tych parametrów na stronie wiki. Widzę tylko następującą formułę:
gdzie k
jest liczba obserwacji i r=0...n
. Jak teraz powiązać je z parametrami podanymi przez R
? Plik pomocy również nie zawiera wielu informacji.
Powiem też kilka słów o moim eksperymencie: w przeprowadzonym przeze mnie eksperymencie społecznym starałem się policzyć liczbę osób, z którymi kontaktował się użytkownik w ciągu 10 dni. Wielkość populacji wynosiła 100 dla eksperymentu.
Teraz, jeśli model pasuje do dwumianu ujemnego, mogę na ślepo powiedzieć, że wynika z tego rozkładu, ale naprawdę chcę zrozumieć intuicyjne znaczenie tego. Co to znaczy powiedzieć, że liczba osób, z którymi kontaktowali się moi badani, ma ujemny rozkład dwumianowy? Czy ktoś może pomóc w wyjaśnieniu tego?
źródło
Jak wspomniałem w moim wcześniejszym poście do ciebie, pracuję nad tym, aby zastanowić się nad dopasowaniem dystrybucji do liczenia danych. Oto, czego się nauczyłem:
Gdy wariancja jest większa niż średnia, widoczna jest nadmierna dyspersja, a zatem ujemny rozkład dwumianowy jest prawdopodobnie odpowiedni. Jeśli wariancja i średnia są takie same, sugerowany jest rozkład Poissona, a gdy wariancja jest mniejsza niż średnia, zalecany jest rozkład dwumianowy.
Z danymi zliczania, nad którymi pracujesz, korzystasz z „ekologicznej” parametryzacji funkcji ujemnego dwumianu w R. Sekcja 4.5.1.3 (strona 165) poniższej, ogólnodostępnej książki mówi o tym konkretnie (w kontekście R, nie mniej!) i mam nadzieję, że odpowie na niektóre z twoich pytań:
http://www.math.mcmaster.ca/~bolker/emdbook/book.pdf
Jeśli dojdziesz do wniosku, że twoje dane są obcięte przez zero (tj. Prawdopodobieństwo 0 obserwacji wynosi 0), możesz chcieć sprawdzić smak NBD obcięty przez zero, który znajduje się w pakiecie R VGAM .
Oto przykład jego zastosowania:
Mam nadzieję, że to jest pomocne.
źródło