Czym różni się rozkład Poissona od rozkładu normalnego?

29

Wygenerowałem wektor, który ma rozkład Poissona, jak następuje:

x = rpois(1000,10)

Jeśli wykonam histogram używając hist(x), rozkład wygląda jak znajomy rozkład normalny w kształcie dzwonu. Jednak w teście Kołmogorowa-Smirnoffa ks.test(x, 'pnorm',10,3)stwierdzono, że rozkład różni się znacznie od rozkładu normalnego z powodu bardzo małej pwartości.

Moje pytanie brzmi zatem: czym różni się rozkład Poissona od rozkładu normalnego, kiedy histogram wygląda tak podobnie do rozkładu normalnego?

luciano
źródło
Również (jako dodatek do odpowiedzi Davida): przeczytaj to ( stats.stackexchange.com/a/2498/603 ) i ustaw wielkość próbki na 100 i zobacz różnicę, jaką robi.
user603

Odpowiedzi:

20
  1. Rozkład Poissona jest dyskretny, podczas gdy rozkład normalny jest ciągły, a zmienna losowa Poissona jest zawsze> = 0. Zatem test Kolgomorova-Smirnova często będzie w stanie stwierdzić różnicę.

  2. Kiedy średnia rozkładu Poissona jest duża, staje się podobna do rozkładu normalnego. Jednak rpois(1000, 10)nawet nie wygląda tak podobnie do normalnego rozkładu (zatrzymuje się na 0, a prawy ogon jest za długi).

  3. Czemu porównując ją ks.test(..., 'pnorm', 10, 3)zamiast ks.test(..., 'pnorm', 10, sqrt(10))? Różnica między 3 a jest niewielka, ale sama się zmieni podczas porównywania dystrybucji. Nawet jeśli rozkład byłby naprawdę normalny, skończyłbyś się antykonserwatywnym rozkładem wartości p:10

    set.seed(1)
    
    hist(replicate(10000, ks.test(rnorm(1000, 10, sqrt(10)), 'pnorm', 10, 3)$p.value))
    

wprowadź opis zdjęcia tutaj

David Robinson
źródło
3
Często ludzie widzą coś niejasno symetrycznego i zakładają, że wygląda to „normalnie”. Podejrzewam, że to, co widział @Ross.
Fraijo,
2
Należy zauważyć, że test KS zasadniczo zakłada ciągłe rozkłady, więc opieranie się na podanej wartości p w tym przypadku może (również) być nieco podejrzane.
kardynał
1
Prawda: uruchomienie hist(replicate(1000, ks.test(rpois(1000, 10), rpois(1000, 10))$p.value))pokazuje, że test porównujący dwie identyczne rozkłady Poissona byłby zbyt konserwatywny.
David Robinson
17

Oto o wiele łatwiejszy sposób na zrozumienie:

Możesz spojrzeć na rozkład dwumianowy jako „matkę” większości rozkładów. Rozkład normalny jest jedynie przybliżeniem rozkładu dwumianowego, gdy n staje się wystarczająco duże. W rzeczywistości Abraham de Moivre zasadniczo odkrył rozkład normalny, próbując przybliżyć rozkład dwumianowy, ponieważ szybko wymyka się obliczeniom rozkładu dwumianowego, ponieważ n rośnie, zwłaszcza gdy nie masz komputerów ( odniesienie ).

Rozkład Poissona jest także kolejnym przybliżeniem rozkładu dwumianowego, ale utrzymuje się znacznie lepiej niż rozkład normalny, gdy n jest duże, a p jest małe, a dokładniej, gdy średnia jest w przybliżeniu taka sama jak wariancja (pamiętaj, że dla rozkładu dwumianowego średnia = np i var = np (1-p)) ( odniesienie ). Dlaczego ta szczególna sytuacja jest tak ważna? Wygląda na to, że dużo się to dzieje w prawdziwym świecie i dlatego mamy to „specjalne” przybliżenie. Poniższy przykład ilustruje scenariusze, w których przybliżenie Poissona działa naprawdę świetnie.

Przykład

Mamy centrum danych obejmujące 100 000 komputerów. Prawdopodobieństwo awarii dowolnego komputera dzisiaj wynosi 0,001. Średnio np. 100 komputerów ulega awarii w centrum danych. Jakie jest prawdopodobieństwo, że dzisiaj tylko 50 komputerów ulegnie awarii?

Binomial: 1.208E-8
Poisson: 1.223E-8
Normal: 1.469E-7

W rzeczywistości jakość aproksymacji dla rozkładu normalnego spada w dół, gdy idziemy na ogon rozkładu, ale Poisson nadal trzyma się bardzo ładnie. W powyższym przykładzie zastanówmy się, jakie jest prawdopodobieństwo, że dzisiaj tylko 5 komputerów ulegnie awarii?

Binomial: 2.96E-36 
Poisson: 3.1E-36
Normal: 9.6E-22

Mamy nadzieję, że daje to lepsze intuicyjne zrozumienie tych 3 dystrybucji.

Shital Shah
źródło
Cóż za niesamowita i wspaniała odpowiedź! Wielkie dzięki. :)
Bora M. Alper
11

Myślę, że warto wspomnieć, że Poisson ( ) pmf jest ograniczającym pmf dwumianu ( , ) o .n p n p n = λ / nλnpnpn=λ/n

Na tym blogu można znaleźć jeden dość długi rozwój .

Ale możemy to również udowodnić ekonomicznie tutaj. Jeśli to dla ustalonegok P ( X n = k )XnBinomial(n,λ/n) k

P(Xn=k)=n!k!(nk)!(λn)k(1λn)nk=n!nk(nk)!1λkk!(1λ/n)neλ(1λ/n)k1.

Łatwo zauważyć, że pierwsze i ostatnie warunki zbiegają się do 1 jako (przypominając, że jest ustalone). Tak więc jak od .nkn ( 1 - λ / n ) ne - λ

P(Xn=k)eλλkk!,
n(1λ/n)neλ

Dodatkowo, mamy normalne przybliżenie do dwumianu, tj. Dwumianowy ( , ) . Przybliżenie poprawia się i pozostaje z dala od 0 do 1. Oczywiście reżimu Poissona nie jest (ponieważ ), ale większe jest większe może być i nadal ma rozsądne normalne przybliżenie.npn dN(np,np(1p))np n = λ / n 0 λ nppn=λ/n0λn

muratoa
źródło
(+1) Witamy na stronie. Wprowadziłem kilka zmian; sprawdź, czy nie wprowadziłem żadnych błędów w procesie. Nie byłem do końca pewien, co sądzić o ostatnim zdaniu w ostatnim zdaniu. Pomocne może być dodatkowe wyjaśnienie.
kardynał
1
Podoba mi się ten kierunek, choć mogą istnieć sposoby, aby powiązać to nieco bliżej z danym pytaniem, wyjaśniając powiązania między tymi trzema dystrybucjami. Na przykład (a) Dwumianowa zmienna losowa (sekwencja) działa jak Poissona, o ile , (b) Dwumianowa (sekwencja) działa jak normalna, o ile jest w przybliżeniu stałą stałą i (c ) Poisson (sekwencja) zachowuje się jak norma dla dużej zasadniczo ze względu na jego nieskończoną podzielność. p λnpnλpλ
kardynał
1
Ładne komentarze @cardinal. Około ostatniego zdania, dla ustalonego, dużego im większy tym większy (np. Bliżej ). Dlatego im lepsze jest przybliżenie normalne do dwumianu, a z kolei Poissona. λ p nnλpn1/2
muratoa,
Dzięki. Rozumiem, co chciałeś teraz powiedzieć. Generalnie zgadzam się, z zastrzeżeniem, że należy zachować ostrożność w związku z relacjami między parametrami, które są uważane za stałe, a które różnią się od innych. :)
kardynał
Cześć Murat i witaj na stronie! dobrze cię tu widzieć i mam nadzieję, że zostaniesz. +1 za wyjaśnienie, dlaczego histogram poissona wygląda bardzo podobnie do normalnego, gdy jest duża. λ
Makro