Proste przybliżenie skumulowanego rozkładu Poissona w długim ogonie?

10

Chcę zdecydować o pojemności C tabeli, aby miała ona szanse resztkowe mniejsze niż na przelanie dla danego , zakładając, że liczba wpisów jest zgodna z prawem Poissona z danym oczekiwana . p [ 40 120 ] E [ 10 310 12 ]2pp[40120]E[1031012]

Idealnie chciałbym, aby najniższa liczba całkowita była Ctaka, że 1-CDF[PoissonDistribution[E],C] < 2^-pdla danego pi E; ale jestem zadowolony z niektórych Cnieco wyżej. Matematyka jest odpowiednia do obliczeń ręcznych, ale chciałbym obliczać Cod pi Ew czasie kompilacji, co ogranicza mnie do 64-bitowej arytmetyki liczb całkowitych.

Aktualizacja: In Mathematica (wersja 7) e = 1000; p = 40; c = Quantile[PoissonDistribution[e], 1 - 2^-p]jest 1231i wydaje się mieć rację (dzięki @Prastrastinator); jednak wynik dla obu jest p = 50i , co jest niewłaściwe po niebezpiecznej stronie (i ma znaczenie: mój eksperyment powtarza się 2 25 razy lub więcej i chcę wyraźnie mniej niż 2 - 30 ogólnych szans na porażkę). Chcę pewne przybliżone, ale bezpieczne przybliżenie przy użyciu tylko 64-bitowej arytmetyki liczb całkowitych , jak to jest dostępne w C (++) w czasie kompilacji.p = 601250225230

fgrieu
źródło
1
Jak o C = Quantile[PoissonDistribution[E],1-2^p]?
1
W ogonie dominuje termin wiodący funkcji masy prawdopodobieństwa Poissona.
kardynał
1
@ Procrastinator: tak, działa w Mathematica (z wyjątkiem znaków pi problemów z precyzją oraz nazw Ei Czastrzeżonych). ALE potrzebuję prostego przybliżenia tego, być może surowego (ale po bezpiecznej stronie), używając tylko 64-bitowej liczby całkowitej arytmetyki!
fgrieu
3
Re aktualizacja: Mathematica 8 zwraca 1262 dla i 1290 dla p = 60 . Re Normalne przybliżenie (@Proc): nie można oczekiwać, że zadziała to dobrze w ogonach, co ma kluczowe znaczenie dla obliczeń. p=50p=60
whuber
1
Być może powinieneś zapytać o przepełnienie stosu. Nie znam ograniczeń, które masz. Nie wiem, co powstrzymuje cię od korzystania z dynamicznej alokacji pamięci, ani czy możesz użyć rozgałęzienia, aby zdecydować o wielkości tablicy, ani jakie są koszty zdefiniowania tablicy, która jest dwa razy większa niż potrzebujesz (a następnie nie używasz wszystkich tego). Jeśli niektóre działają jak (tylko jako przykład) dał ci dokładną odpowiedź, czy byłbyś w stanie zastosować przybliżenie pod swoimi ograniczeniami, czy nie? Wygląda teraz na problem z programowaniem. μ+loglogμlogμμ+pμlogμ
Douglas Zare

Odpowiedzi:

10

Rozkład Poissona z dużą średnią jest w przybliżeniu normalny, ale musisz uważać, aby chcieć związać ogon, a normalne przybliżenie jest proporcjonalnie mniej dokładne w pobliżu ogonów.

Jednym podejściem zastosowanym w tym pytaniu MO i przy rozkładach dwumianowych jest rozpoznanie, że ogon zmniejsza się szybciej niż seria geometryczna, więc można napisać wyraźną górną granicę jako serię geometryczną.

k=Dexp(μ)μkk!<k=Dexp(μ)μDD!(μD+1)kD=exp(μ)μDD!11μD+1<exp(μ)μD2πD(D/e)D11μD+1=exp(Dμ)(μD)DD+12πD(D+1μ)

plog2=log(bound)D=μ+cμ.

p=100μ=100010000138411/2100.06.0138311/299.59.

Douglas Zare
źródło
1
+1. Another approach relates Poisson tail probabilities (on the right) to tail probabilities of Gamma distributions (on the left), which can be closely (over)estimated with a saddlepoint approximation.
whuber
There's a long way from that to something restricted to 64-bit integer arithmetic (without exp, log, sqrt..) but I will work on it; thanks all!
fgrieu
(+1) Up to the invocation of Stirling's approximation (which is irrelevant), this is exactly the bound I was (opaquely) referencing in my comment to the OP. (For example, see here.)
cardinal
2

You may see P. Harremoës: Sharp Bounds on Tail Probabilities for Poisson Random Variables https://helda.helsinki.fi/bitstream/handle/10138/229679/witmse_proc_17.pdf The main inequalities there are as follows. Let Y be a Poisson random variable with parameter λ. Put

G(x)=2(xlnxλ+λx)  sign(xλ).
Let Φ denote the cumulative distribution function for the standard normal law. Then, for all integer k0,
P(Y<k)Φ(G(k))P(Yk),
which is equivalent to
Φ(G(k1))P(Y<k)Φ(G(k))
for all integer k>0. Moreover, Φ(G(k+(1/2)))P(Yk) which implies that
Φ(G(k1/2))P(Y<k)Φ(G(k))
for all integer k>0.

Pavel Ruzankin
źródło
If you could write out the key equation (assuming there are only one or two) that would help in case the link goes dead at some time.
jbowman