Jaki jest rozkład zaokrąglonej w dół średniej losowych zmiennych Poissona?

20

Jeśli mam zmienne losowe X1,X2,,Xn które są rozkładem Poissona z parametrami λ1,λ2,,λn , jaki jest rozkład Y=i=1nXin(tj. całkowita liczba średnia)?

Suma Poissonów jest również Poissonem, ale nie jestem wystarczająco pewna w statystykach, aby ustalić, czy jest taka sama w powyższym przypadku.

Lubo Antonov
źródło
@amoeba Cofnąłem edycję tytułu, ponieważ tak naprawdę nie jest to „zaokrąglenie”. Poprzednia edycja Kardynała, choć nie tak dokładna, wydaje się lepsza, ponieważ jest dokładna.
whuber
@whuber Dobra. Wahałem się przy tworzeniu tej edycji, ale zdecydowałem się dołączyć słowo „zaokrąglenie”, ponieważ obecnie tytuł nie sugeruje tutaj głównej trudności (i jest w pewien sposób mylący). Właściwym terminem powinno być „zaokrąglanie w dół”, więc może „Jaki jest rozkład średniej losowych zmiennych Poissona, zaokrąglony w dół ?” - chociaż przyznam, że to trochę kłopotliwe.
ameba mówi Przywróć Monikę
@amoeba Kolejne zmiany są oczywiście mile widziane!
whuber

Odpowiedzi:

27

Uogólnienie pytania wymaga rozkładu gdy rozkład X jest znany i poparty liczbami naturalnymi. (W pytaniu X ma rozkład Poissona parametru λ = λ 1 + λ 2 + + λ n i m = n .)Y=X/mXXλ=λ1+λ2++λnm=n

Rozkład jest łatwo określana przez rozkład m Y , którego prawdopodobieństwo generowania funkcji (PGF) można określić w kategoriach PGF o X . Oto zarys pochodnej.YmYX


Napisz dla pgf X , gdzie (z definicji) p n = Pr ( X = n ) . m Y jest skonstruowane z X w taki sposób, że jego pgf, q , wynosip(x)=p0+p1x++pnxn+Xpn=Pr(X=n)mYXq

q(x)=(p0+p1++pm1)+(pm+pm+1++p2m1)xm++(pnm+pnm+1++p(n+1)m1)xnm+.

Ponieważ jest to absolutnie zbieżne dla , możemy zmienić warunki na sumę części formularza|x|1

Dm,tp(x)=pt+pt+mxm++pt+nmxnm+

dla t=0,1,,m1 . Seria zasilające funkcji składa się z co m th okres serii P , wychodząc z t p : jest czasami nazywany decymacji w p . Wyszukiwania Google obecnie nie wyświetlają użytecznych informacji o dziesiętnych, więc dla kompletności, oto pochodna wzoru.xtDm,tpmthptthp

Niech być dowolny prymitywny m th korzeni jedności; na przykład weź ω = exp ( 2 i π / m )ωmthω=exp(2iπ/m) . Następnie wynika z i m - 1 j = 0 ω j = 0 toωm=1jot=0m-1ωjot=0

xtrem,tp(x)=1mjot=0m-1ωtjotp(x/ωjot).

Aby to zobaczyć, zauważ, że operator jest liniowy, więc wystarczy sprawdzić formułę na podstawie { 1 , x , x 2 , , x n , } . Zastosowanie prawej strony do x n dajextrem,t{1,x,x2),,xn,}xn

xtrem,t[xn]=1mjot=0m-1ωtjotxnω-njot=xnmjot=0m-1ω(t-n)jot.

Gdy i n różnią się wielokrotnością m , każdy składnik w sumie jest równy 1 i otrzymujemy x n . W przeciwnym razie terminy przechodzą przez potęgi ω t - n i sumują się do zera. Skąd ten operator zachowuje wszystkie moce x przystające do t modulo m i zabija wszystkie pozostałe: jest to dokładnie pożądana projekcja.tnm1xnωt-nxtm

Wzór na następuje łatwo, zmieniając kolejność sumowania i rozpoznając jedną z sum jako geometryczną, zapisując ją w formie zamkniętej:q

q(x)=t=0m-1(rem,t[p])(x)=t=0m-1x-t1mjot=0m-1ωtjotp(ω-jotx)=1mjot=0m-1p(ω-jotx)t=0m-1(ωjot/x)t=x(1-x-m)mjot=0m-1p(ω-jotx)x-ωjot.

Na przykład pgf rozkładu Poissona parametru to p ( x ) = exp ( λ ( x - 1 )λ . Przy m = 2 , ω = - 1 i pgf 2 Y będziep(x)=exp(λ(x-1))m=2)ω=-12)Y

q(x)=x(1x2)2j=021p((1)jx)x(1)j=x1/x2(exp(λ(x1))x1+exp(λ(x1))x+1)=exp(λ)(sinh(λx)x+cosh(λx)).

Jednym z zastosowań tej metody jest obliczenie momentów i m Y . Wartość k- tej pochodnej pgf oceniana przy x = 1 jest k- tym momentem czynnikowym. K th chwili jest kombinacją liniową pierwszych k moment silni. Korzystając z tych obserwacji, stwierdzamy na przykład, że dla Poissona rozproszonego X.XmYkthx=1kthkthkX jego średnia (która jest pierwszym momentem czynnikowym) wynosi , średnia 2 ( X / 2 ) jest równa λλ2(X/2), a średnia z3(X/3)jest równaλ-1+e-3λ/2(sin ( λ12+12e2λ3(X/3):λ1+e3λ/2(sin(3λ2)3+cos(3λ2))

Znaczy

Średnie dla pokazano odpowiednio na niebiesko, czerwono i żółto, jako funkcje λ : asymptotycznie, średnia spada o ( m - 1 ) / 2 w porównaniu z pierwotną średnią Poissona.m=1,2,3λ(m1)/2

Podobne wzory dla wariancji można uzyskać. (Stają się niechlujne wraz ze wzrostem więc są pomijane. Jedną rzeczą, którą ostatecznie ustalają, jest to, że gdy m > 1 żadna wielokrotność Y nie jest Poissonem: nie ma ona charakterystycznej równości średniej i wariancji) Oto wykres wariancji jako funkcja λ dla m = 1 , 2 , 3 :mm>1Yλm=1,2,3

Wariancje

Interesujące jest to, że dla większych wartości wariancje rosną . Intuicyjnie wynika to z dwóch konkurujących ze sobą zjawisk: funkcja podłogi skutecznie grupuje grupy wartości, które pierwotnie były odrębne; musi to spowodować zmniejszenie wariancji . Jednocześnie, jak widzieliśmy, zmieniają się również środki (ponieważ każdy bin jest reprezentowany przez jego najmniejszą wartość); musi to spowodować dodanie z powrotem terminu równego kwadratowi różnicy średnich środków. Wzrost wariancji dla dużego λ staje się większy przy większych wartościach m .λλm

Zachowanie wariancji z m jest zaskakująco złożone. Zakończmy szybką symulacją (in ) pokazującą, co potrafi. Wykresy pokazują różnicę między wariancją m X / m a wariancją X dla Poissona o rozkładzie X z różnymi wartościami λ w zakresie od 1mYmRmX/mXXλ1 do . We wszystkich przypadkach wykresy wydają się osiągać wartości asymptotyczne po prawej stronie.5000

set.seed(17)
par(mfrow=c(3,4))
temp <- sapply(c(1,2,5,10,20,50,100,200,500,1000,2000,5000), function(lambda) {
  x <- rpois(20000, lambda)
  v <- sapply(1:floor(lambda + 4*sqrt(lambda)), 
              function(m) var(floor(x/m)*m) - var(x))
  plot(v, type="l", xlab="", ylab="Increased variance", 
       main=toString(lambda), cex.main=.85, col="Blue", lwd=2)
})

Działki

Whuber
źródło
1
To świetna odpowiedź! Prawdopodobnie zajmie mi to trochę czasu :)
Lubo Antonov
1
i dlatego powiedziałem: „Korzystanie z funkcji podłogi… wpływa nieco na wariancję, choć w bardziej skomplikowany sposób”.
Henry,
1
+1 Dzięki za szczegółową odpowiedź. Z pewnością istnieją skomplikowane sposoby, w jakie funkcja podłogi wpływa na wariancję.
Dilip Sarwate
1
+1 za symulację w R z kodem --- jest to bardzo dobry przykład użycia sapply()do symulacji. Dzięki.
Assad Ebrahim
1
@Roberto Dziękujemy. Jednak rozróżnienie między „ ” i „ s ”, będące wyłącznie kwestią notacji, jest całkowicie trywialne i nie ma znaczenia matematycznego ani statystycznego. xs
whuber
12

Jak mówi Michael Chernick, jeśli poszczególne zmienne losowe są niezależne, wówczas suma wynosi Poissona z parametrem (średnia i wariancja) i=1nλi które można nazwać .λ

Dzielenie przez zmniejsza średnią do λ / n i wariancji λ / nnλ/n więc wariancja będzie mniejsza niż równoważny rozkład Poissona. Jak mówi Michael, nie wszystkie wartości będą liczbami całkowitymi.λ/n2

Korzystanie z funkcji podłogi nieznacznie zmniejsza średnią i nieco wpływa na wariancję, choć w bardziej skomplikowany sposób. Chociaż masz wartości całkowite, wariancja nadal będzie znacznie mniejsza niż średnia, więc będziesz miał węższy rozkład niż Poisson.1212n

Henz
źródło
dzięki, nie wynik, którego mogę użyć, ale przynajmniej wiem teraz :)
Lubo Antonov
Jeśli lambdy nie są równe, to czy wynik nie powinien być bardziej ujemny dwumianowy niż Poissona (na razie ignorując część niecałkowitą)? Czego tu brakuje?
Gung - Przywróć Monikę
2
@gung: jesteś brakuje punktu, że poszczególne tylko wpływają na rozkład przez ich sumę i ile istnieją. Nie ma znaczenia, jakie konkretne wartości przyjmują: λ 1 = 1 , λ 2 = 2 , λ 3 = 9 da taki sam wynik jak λ 1 = 4 , λ 2 = 4 , λ 3 = 4 . λiλ1=1,λ2=2,λ3=9λ1=4,λ2=4,λ3=4
Henry
10

Funkcja masy prawdopodobieństwa średniej z niezależnych zmiennych losowych Poissona może być zapisana wprost, chociaż odpowiedź może ci niewiele pomóc. Jak zauważył Michael Chernick w komentarzach do swojej własnej odpowiedzi, suma i X i niezależnych zmiennych losowych Poissona X i o odpowiednich parametrach λ i jest zmienną losową Poissona z parametrem λ = i λ i . Zatem P { n i = 1 X i = k } = expn jaXjaXjaλjaλ=jaλja A zatem, Y =n-1Σ n i = 1 Xijest zmienną losową o przyjmowanie wartościk/nz prawdopodobieństwemexp(-X)λK

P.{ja=1nXja=k}=exp(-λ)λkk!,  k=0,1,2),,
Y^=n-1ja=1nXjak/n. Zauważ, że Y jestniezmienna losowa o wartościach całkowitą (choć bierze na jednorodnie rozmieszczone wartości racjonalne). Wynika z tego, że łatwo Y= Yoznacza liczbę całkowitą o wartościach losowo przeprowadzanie zmiennego w wartościmdo prawdopodobieństwa P{Y=m}=P{ 1exp(-λ)λkk!Y^Y=Y^m Toniejestfunkcja masy prawdopodobieństwa zmiennej losowej Poissona. Wzory średniej i wariancji można zapisać za pomocą tej funkcji masy prawdopodobieństwa, ale nie prowadzą one oczywiście do prostych, prostych odpowiedzi w kategoriachλin. Przybliżone wartości można uzyskać, jak wskazał Henry.
P{Y=m}=P{1ni=1nXi=m}=exp(λ)i=0n1λmn+i(mn+i)!,  m=0,1,2,,
λn
Dilip Sarwate
źródło
Y
Dzięki za rygorystyczne sformułowanie! Czy jest jakaś szansa, że ​​zechcesz rzucić okiem na formuły pod kątem średniej i wariancji?
Lubo Antonov,
2
Być może @whuber opublikuje link (lub cytat z książki lub artykułu w czasopiśmie), w którym można znaleźć formuły zamknięte dla chwil, lub napisze odpowiedź, podając same formuły, ze szczegółowym wyprowadzeniem lub bez.
Dilip Sarwate,
@Dipip Moje twierdzenie o zamkniętych formułach nie było oparte na niczym opublikowanym, dlatego opublikowałem osobną odpowiedź wskazującą, co miałem na myśli i jak można to wykorzystać do zrozumienia tej sytuacji.
whuber
3

Y nie będzie Poissonem. Należy zauważyć, że zmienne losowe Poissona przyjmują nieujemne wartości całkowite. Po podzieleniu przez stałą tworzona jest zmienna losowa, która może mieć wartości inne niż całkowite. Nadal będzie miał kształt Poissona. Po prostu dyskretne prawdopodobieństwa mogą wystąpić w punktach niecałkowitych.

Michael R. Chernick
źródło
Y
@ lucas1024 Nie sądzę, ale nie jestem pewien.
Michael R. Chernick
Xin1
@JDav Suma to Poisson z parametrem stawki równym sumie poszczególnych parametrów stawki. Ale OP skaluje się o 1 / n, a następnie chce obciąć liczbę całkowitą tuż poniżej Y. Nie wiem dokładnie, co to robi z rozkładem.
Michael R. Chernick
Mój poprzedni komentarz zakładał niezależność.
Michael R. Chernick