Jaki jest rozkład prawdopodobieństwa tej losowej sumy nie-iidowych zmiennych Bernoulliego?

9

Próbuję znaleźć rozkład prawdopodobieństwa sumy losowej liczby zmiennych, które nie są identycznie rozmieszczone. Oto przykład:

John pracuje w centrum obsługi klienta. Otrzymuje połączenia z problemami i próbuje je rozwiązać. Tych, których nie potrafi rozwiązać, przekazuje je swojemu przełożonemu. Załóżmy, że liczba połączeń, które otrzymuje w ciągu dnia, jest równa średniej Poissonaμ. Trudność każdego problemu różni się od dość prostych rzeczy (z którymi zdecydowanie może sobie poradzić) do bardzo specjalistycznych pytań, których nie będzie w stanie rozwiązać. Załóżmy, że prawdopodobieństwopibędzie w stanie rozwiązać i- ty problem następujący po dystrybucji Beta z parametramiα i βi jest niezależny od poprzednich problemów. Jaki jest rozkład liczby połączeń, które rozwiązuje w ciągu jednego dnia?

Bardziej formalnie mam:

Y=I(N>0)i=0NXi dla i=0,1,2,...,N

gdzie NPoisson(μ) , (Xi|pi)Bernoulli(pi) i piBeta(α,β)

Zauważ, że na razie cieszę się, że Xisą niezależne. Zaakceptowałbym również te parametryμ,α i β nie wpływają na siebie nawzajem, chociaż w prawdziwym przykładzie tego, kiedy μ jest duży, parametry α i β są takie, że dystrybucja Beta ma większą masę przy niskim wskaźniku sukcesu p. Ale na razie zignorujmy to.

Mogę obliczyć P(Y=0)ale to jest o tym. Mogę również symulować wartości, aby dowiedzieć się, co to za rozkładY wygląda (wygląda jak Poisson, ale nie wiem, czy to zależy od liczby μ,α i βPróbowałem lub czy uogólnia i jak może się zmienić dla różnych wartości parametrów). Masz pojęcie o tym, czym jest ta dystrybucja lub jak mógłbym ją uzyskać?

Pamiętaj, że zamieściłem to pytanie również na Forum TalkStats, ale pomyślałem, że może zwrócić na to większą uwagę. Przepraszamy za przesyłanie wiadomości i wielkie dzięki za poświęcony czas.

EDYCJA : Jak się okazuje (zobacz poniżej bardzo pomocne odpowiedzi - i dzięki za to!), To naprawdę jestPoisson(μαα+β)dystrybucja, coś, co zgadywałem na podstawie mojej intuicji i niektórych symulacji, ale nie byłem w stanie udowodnić. Zaskakujące jest to, że rozkład Poissona zależy tylko od średniejBeta dystrybucja, ale nie ma na nią wpływu jej wariancja.

Na przykład następujące dwie dystrybucje Beta mają tę samą średnią, ale różną wariancję. Dla jasności niebieski pdf oznaczaBeta(2,2) i czerwony Beta(0.75,0.75).

Dystrybucje beta

Oba jednak skutkowałyby tym samym Poisson(0.5μ)dystrybucja, która wydaje mi się nieco sprzeczna z intuicją. (Nie mówię, że wynik jest zły, po prostu zaskakujące!)

Constantinos
źródło
Do naprawienia Nistnieje rozkład Poissona-dwumianowy, ale twój problem jest bardziej skomplikowany.
Tim
Dzięki, wiem o rozkładzie dwumianowym Poissona, ale Njest tu losowy.
Constantinos
Możesz spojrzeć na złożony Poissona , ale może być konieczne trochę pracy z
zerami

Odpowiedzi:

6

Połączenia (tzn Xi) przybywają zgodnie z procesem Poissona. Łączna liczba połączeńNnastępuje po rozkładzie Poissona. Podziel rozmowy na dwa typy, np. CzyXi=1 lub Xi=0. Celem jest określenie procesu, który generuje1s. To jest trywialne, jeśliXi=1 ze stałym prawdopodobieństwem p: zgodnie z zasadą superpozycji procesów Poissona cały proces przerzedził się tylko do 1s byłby również procesem Poissona z szybkością pμ. W rzeczywistości tak jest, potrzebujemy tylko dodatkowego kroku, aby się tam dostać.

Zminimalizuj pi, tak że

Pr(Xi|α,β)=01piXi(1pi)1Xipiα1(1pi)β1B(α,β)dpi=B(Xi+α,1Xi+β)B(α,β)

Gdzie B(a,b)=Γ(a)Γ(b)Γ(a+b)jest funkcją beta. Wykorzystując fakt, żeΓ(x+1)=xΓ(x)powyższe upraszcza;

Pr(Xi=1|α,β)=Γ(1+α)Γ(β)Γ(1+α+β)Γ(α+β)Γ(α)Γ(β)=αα+β
Innymi słowy, XiBernoulli(αα+β). Według właściwości superpozycjiY jest rozkładem Poissona ze stawką αμα+β.

Numeryczny przykład (z R) ... na rysunku linie pionowe pochodzą z symulacji, a czerwone punkty to pmf wyprowadzone powyżej:

draw <- function(alpha, beta, mu) 
{ N <- rpois(1, mu); p = rbeta(N, alpha, beta); sum(rbinom(N, size=1, prob=p)) }

pmf <- function(y, alpha, beta, mu)
  dpois(y, alpha*mu/(alpha+beta))

y <- replicate(30000,draw(4,5,10))
tb <- table(y)

# simulated pmf
plot(tb/sum(tb), type="h", xlab="Y", ylab="Probability")
# analytic pmf
points(0:max(y), pmf(0:max(y), 4, 5, 10), col="red")

wprowadź opis zdjęcia tutaj

Nate Pope
źródło
3
  1. Od pi jest zmienną losową z Beta(α,β) ty masz E[pi]=αα+β i to jest prawdopodobieństwo, że John faktycznie rozwiązuje iproblem, niezależnie od wszystkich innych.

  2. Ponieważ całkowita liczba problemów w ciągu dnia ma rozkład Poissona z parametrem μ i każdy zostanie rozwiązany z prawdopodobieństwem αα+β, liczba, którą John rozwiązuje każdego dnia, ma rozkład Poissona z parametrem μαα+β

  3. Twoje obliczenie prawdopodobieństwa, że ​​nie rozwiąże on żadnych problemów, powinno być P(Y=0)=eμα/(α+β)

Henz
źródło