Tutaj w Wikipedii jest napisane:
Dla wystarczająco dużych wartości (powiedzmy ) rozkład normalny ze średnią i wariancją (odchylenie standardowe ) stanowi doskonałe przybliżenie do rozkładu Poissona. Jeżeli jest większe niż około 10, to rozkład normalny jest dobrym przybliżeniem, jeśli przeprowadzona jest odpowiednia korekta ciągłości, tj. gdzie (mała litera) jest liczbą całkowitą nieujemną, zastępuje się
Niestety nie jest to cytowane. Chcę być w stanie pokazać / udowodnić to z pewnym rygorem. Jak można powiedzieć, że rozkład normalny jest dobrym przybliżeniem, gdy , jak oszacować to „doskonałe” przybliżenie, jakie miary zastosowano?
Najdalej z tym mam do czynienia tutaj, gdzie John mówi o użyciu twierdzenia Berry – Esseen i przybliża błąd w dwóch CDF. Z tego, co widzę, nie wypróbowuje żadnych wartości .
Odpowiedzi:
Załóżmy, że to Poisson z parametrem , a jest normalne ze średnią i wariancją . Wydaje mi się, że właściwym porównaniem jest i . Tutaj dla uproszczenia piszę , to znaczy jesteśmy zainteresowani, gdy odpowiada standardowym odchyleniom od średniej.λ Y λ Pr ( X = n )X λ Y λ Pr ( X= n ) n=λ+α√Pr ( Y∈ [ n - 12), n + 12)] ) nαn = λ + α λ--√ n α
Więc oszukiwałem. Użyłem Mathematica. Tak więc i są asymptotyczne do jako . Ale ich różnica jest asymptotyczna do Jeśli wykreślisz to jako funkcję , otrzymasz tę samą krzywą, jak pokazano na drugim do ostatniego rysunku w http://www.johndcook.com/blog/normal_approx_to_poisson/ .Pr ( Y ∈ [ n - 1Pr ( X= n ) 1Pr ( Y∈ [ n - 12), n + 12)] ) X→∞α(α2-3)e-α2/2
Oto polecenia, których użyłem:
Ponadto, przy odrobinie eksperymentów, wydaje mi się, że lepszym asymptotycznym przybliżeniem do jest . Zatem błąd to czyli około razy mniej.Pr ( Y ∈ [ n - α 2 / 6 , n + 1 - α 2 / 6 ] ) - ( 5 α 4 - 9 α 2 - 6 ) e - α 2 / 2Pr ( X= n ) Pr ( Y∈ [ n - α2)/ 6,n+1- α2)/ 6])
źródło
Glen_b ma rację, ponieważ „dobre dopasowanie” jest bardzo subiektywnym pojęciem. Jeśli jednak chcesz sprawdzić, czy rozkład Poissona jest w miarę normalny, możesz użyć hipotetycznego testu Kolmorgova-Smirnova z hipotezą zerową CDF pochodzi z rozkładu , przy założeniu twoja próbka będzie pochodzić z Poissona ( ). Ponieważ tak naprawdę nie testujesz próbki, ale jeden rozkład względem drugiego, musisz dokładnie przemyśleć wielkość próbki i poziom istotności, który zakładasz w tym hipotetycznym teście (ponieważ nie używamy testu KS w typowy sposób). To jest:N ( λ , λ ) λH.0: N.( λ , λ ) λ
Teraz obliczyć współczynnik błędu typu II dla tego testu, zakładając, że dane faktycznie pochodzą z poissona ( ). Stopień dopasowania z rozkładem normalnym będzie taki jak współczynnik błędu typu II, w tym sensie, że próbki o rozmiarze n z określonego rozkładu Poissona będą średnio akceptowane % czasu przez test normalności KS w wybranym poziom istotności.βλ β
W każdym razie jest to tylko jeden sposób na uzyskanie poczucia „dobroci dopasowania”. Jednak wszystkie polegają na pewnych subiektywnych pojęciach „dobroci”, które będziecie musieli sami zdefiniować.
źródło
Wyprowadzenie z rozkładu dwumianowego może dać ci wgląd.
Mamy dwumianową zmienną losową;
Można to alternatywnie obliczyć rekurencyjnie;
Jeśli utrzymasz stan początkowy;
Załóżmy teraz, że jest duże, a jest małe, ale średni sukces jest stały . Następnie możemy wykonać następujące czynności;n p p ( x ) ( n p = λ )
Używamy tego .p = λ / n
Przełączamy niektóre zmienne i oceniamy;
Z rachunku wiemy, że . Wiemy również, że ponieważ zarówno góra, jak i dół są wielomianami stopnialimn → ∞( 1 + x / n )n= ex [ n ( n - 1 ) ( n - 2 ) ⋯ ( n - i + 1 ) ] / nja≈ 1 ja .
Prowadzi to do wniosku, że jako :n → ∞
Następnie możesz sprawdzić, czy i za pomocą definicji. Wiemy, że rozkład dwumianowy jest zbliżony do normy w warunkach twierdzenia De Moivre-Laplace'a, o ile korygujesz ciągłość, dlatego zastępuje się .mi( X) = λ Var( X) = λ P ( X ≤ x ) P ( X ≤ x + 0,5 )P.( X≤ x ) P.( X≤ x + 0,5 )
źródło