Normalne przybliżenie do rozkładu Poissona

12

Tutaj w Wikipedii jest napisane:

Dla wystarczająco dużych wartości λ (powiedzmy λ>1000 ) rozkład normalny ze średnią λ i wariancją λ (odchylenie standardowe λ ) stanowi doskonałe przybliżenie do rozkładu Poissona. Jeżeli λ jest większe niż około 10, to rozkład normalny jest dobrym przybliżeniem, jeśli przeprowadzona jest odpowiednia korekta ciągłości, tj. P(Xx), gdzie (mała litera) x jest liczbą całkowitą nieujemną, zastępuje się P(Xx+0.5).

FPoisson(x;λ)Fnormal(x;μ=λ,σ2=λ)

Niestety nie jest to cytowane. Chcę być w stanie pokazać / udowodnić to z pewnym rygorem. Jak można powiedzieć, że rozkład normalny jest dobrym przybliżeniem, gdy λ>1000 , jak oszacować to „doskonałe” przybliżenie, jakie miary zastosowano?

Najdalej z tym mam do czynienia tutaj, gdzie John mówi o użyciu twierdzenia Berry – Esseen i przybliża błąd w dwóch CDF. Z tego, co widzę, nie wypróbowuje żadnych wartości λ1000 .

hgeop
źródło
6
Nie można tego udowodnić bez zdefiniowania „dobrego”. (Możesz udowodnić wynik asymptotyczny, ale nie możesz zadeklarować, że jest „dobry” przy określonej wielkości próby bez zdefiniowania kryteriów.) Możesz zademonstrować jego zachowanie na podstawie bezpośredniego przykładu (z którego ludzie mogą zobaczyć, jak dobry „dobry” jest przez ich własne światła). W przypadku typowych kryteriów ludzie zwykle używają korekcji ciągłości działa dobrze dla o ile nie zagłębisz się w ogon. λ>10
Glen_b
1
(Mówiąc ściślej, jeśli twoim kryterium jest błąd bezwzględny, możesz potencjalnie osiągnąć „dobry” wszędzie przy małych próbkach, takich jak 10, ale większość ludzi dba o coś bliższego względnemu błędowi)
Glen_b

Odpowiedzi:

7

Załóżmy, że to Poisson z parametrem , a jest normalne ze średnią i wariancją . Wydaje mi się, że właściwym porównaniem jest i . Tutaj dla uproszczenia piszę , to znaczy jesteśmy zainteresowani, gdy odpowiada standardowym odchyleniom od średniej.λ Y λ Pr ( X = n )XλYλPr(X=n)n=λ+αPr(Y[n12,n+12]) nαn=λ+αλnα

Więc oszukiwałem. Użyłem Mathematica. Tak więc i są asymptotyczne do jako . Ale ich różnica jest asymptotyczna do Jeśli wykreślisz to jako funkcję , otrzymasz tę samą krzywą, jak pokazano na drugim do ostatniego rysunku w http://www.johndcook.com/blog/normal_approx_to_poisson/ .Pr ( Y [ n - 1Pr(X=n)1Pr(Y[n12,n+12])Xα(α2-3)e-α2/2

12)πλmi-α2)/2)
λα
α(α2)-3))mi-α2)/2)62)πλ
α

Oto polecenia, których użyłem:

  n = lambda + alpha Sqrt[lambda];
  p1 = Exp[-lambda] lambda^n/n!;
  p2 = Integrate[1/Sqrt[2 Pi]/Sqrt[lambda] Exp[-(x-lambda)^2/2/lambda], {x, n-1/2, n+1/2}];
  Series[p1, {lambda, Infinity, 1}]
  Series[p2, {lambda, Infinity, 1}]

Ponadto, przy odrobinie eksperymentów, wydaje mi się, że lepszym asymptotycznym przybliżeniem do jest . Zatem błąd to czyli około razy mniej.Pr ( Y [ n - α 2 / 6 , n + 1 - α 2 / 6 ] ) - ( 5 α 4 - 9 α 2 - 6 ) e - α 2 / 2Par(X=n)Par(Y[n-α2)/6,n+1-α2)/6])

-(5α4-9α2)-6)mi-α2)/2)722)πλ3)/2)
λ
Stephen Montgomery-Smith
źródło
2

Glen_b ma rację, ponieważ „dobre dopasowanie” jest bardzo subiektywnym pojęciem. Jeśli jednak chcesz sprawdzić, czy rozkład Poissona jest w miarę normalny, możesz użyć hipotetycznego testu Kolmorgova-Smirnova z hipotezą zerową CDF pochodzi z rozkładu , przy założeniu twoja próbka będzie pochodzić z Poissona ( ). Ponieważ tak naprawdę nie testujesz próbki, ale jeden rozkład względem drugiego, musisz dokładnie przemyśleć wielkość próbki i poziom istotności, który zakładasz w tym hipotetycznym teście (ponieważ nie używamy testu KS w typowy sposób). To jest:N ( λ , λ ) λH.0:N.(λ,λ)λ

  • Wybierz reprezentatywną, hipotetyczną wielkość próby, n, i dostosuj poziom istotności testu do typowej wartości, np. 5%.

Teraz obliczyć współczynnik błędu typu II dla tego testu, zakładając, że dane faktycznie pochodzą z poissona ( ). Stopień dopasowania z rozkładem normalnym będzie taki jak współczynnik błędu typu II, w tym sensie, że próbki o rozmiarze n z określonego rozkładu Poissona będą średnio akceptowane % czasu przez test normalności KS w wybranym poziom istotności.βλβ

W każdym razie jest to tylko jeden sposób na uzyskanie poczucia „dobroci dopasowania”. Jednak wszystkie polegają na pewnych subiektywnych pojęciach „dobroci”, które będziecie musieli sami zdefiniować.


źródło
2

Wyprowadzenie z rozkładu dwumianowego może dać ci wgląd.

Mamy dwumianową zmienną losową;

p(x)=(nx)px(1-p)n-x

Można to alternatywnie obliczyć rekurencyjnie;

p(x)=(n-x+1)px(1-p)p(x-1)

Jeśli utrzymasz stan początkowy;

p(0)=(1-p)n

Załóżmy teraz, że jest duże, a jest małe, ale średni sukces jest stały . Następnie możemy wykonać następujące czynności;npp(x)(np=λ)

P.(X=ja)=(nja)px(1-p)n-x

Używamy tego .p=λ/n

P.(X=ja)=n!(n-ja)!ja!(λn)ja(1-λn)n-ja

Przełączamy niektóre zmienne i oceniamy;

P.(X=ja)=n(n-1)(n-2))(n-ja+1)njaλjaja!(1-λn)n(1-λn)ja

Z rachunku wiemy, że . Wiemy również, że ponieważ zarówno góra, jak i dół są wielomianami stopnialimn(1+x/n)n=mix[n(n-1)(n-2))(n-ja+1)]/nja1ja .

Prowadzi to do wniosku, że jako :n

P.(X=ja)mi-λλjaja!

Następnie możesz sprawdzić, czy i za pomocą definicji. Wiemy, że rozkład dwumianowy jest zbliżony do normy w warunkach twierdzenia De Moivre-Laplace'a, o ile korygujesz ciągłość, dlatego zastępuje się .mi(X)=λVar(X)=λP ( X x ) P ( X x + 0,5 )P.(Xx)P.(Xx+0,5)

Vincent Warmerdam
źródło