Mam zestaw danych, który spodziewałbym się podążać za rozkładem Poissona, ale jest on rozproszony około 3-krotnie. Obecnie modeluję tę naddyspersję za pomocą czegoś takiego jak następujący kod w R.
## assuming a median value of 1500
med = 1500
rawdist = rpois(1000000,med)
oDdist = rawDist + ((rawDist-med)*3)
Wizualnie wydaje się, że bardzo dobrze pasuje to do moich danych empirycznych. Jeśli jestem zadowolony z dopasowania, czy jest jakiś powód, dla którego powinienem robić coś bardziej złożonego, na przykład stosując ujemny rozkład dwumianowy, jak opisano tutaj ? (Jeśli tak, to mile widziane będą wszelkie wskazówki lub linki).
Aha, i jestem świadomy, że tworzy to nieco postrzępiony rozkład (z powodu mnożenia przez trzy), ale to nie powinno mieć znaczenia dla mojej aplikacji.
Aktualizacja: Ze względu na każdego, kto szuka i znajduje to pytanie, oto prosta funkcja R do modelowania rozproszonego poissona przy użyciu ujemnego rozkładu dwumianowego. Ustaw d na żądany stosunek średniej / wariancji:
rpois.od<-function (n, lambda,d=1) {
if (d==1)
rpois(n, lambda)
else
rnbinom(n, size=(lambda/(d-1)), mu=lambda)
}
(za pośrednictwem listy mailingowej R: https://stat.ethz.ch/pipermail/r-help/2002-June/022425.html )
źródło
Jeśli twoja średnia wartość Poissona wynosi 1500, oznacza to, że jesteś bardzo zbliżony do rozkładu normalnego; możesz spróbować użyć tego jako przybliżenia, a następnie osobno modelować średnią i wariancję.
źródło