Wygenerowałem wektor, który ma rozkład Poissona, jak następuje:
x = rpois(1000,10)
Jeśli wykonam histogram używając hist(x)
, rozkład wygląda jak znajomy rozkład normalny w kształcie dzwonu. Jednak w teście Kołmogorowa-Smirnoffa ks.test(x, 'pnorm',10,3)
stwierdzono, że rozkład różni się znacznie od rozkładu normalnego z powodu bardzo małej p
wartości.
Moje pytanie brzmi zatem: czym różni się rozkład Poissona od rozkładu normalnego, kiedy histogram wygląda tak podobnie do rozkładu normalnego?
Odpowiedzi:
Rozkład Poissona jest dyskretny, podczas gdy rozkład normalny jest ciągły, a zmienna losowa Poissona jest zawsze> = 0. Zatem test Kolgomorova-Smirnova często będzie w stanie stwierdzić różnicę.
Kiedy średnia rozkładu Poissona jest duża, staje się podobna do rozkładu normalnego. Jednak
rpois(1000, 10)
nawet nie wygląda tak podobnie do normalnego rozkładu (zatrzymuje się na 0, a prawy ogon jest za długi).Czemu porównując ją10−−√
ks.test(..., 'pnorm', 10, 3)
zamiastks.test(..., 'pnorm', 10, sqrt(10))
? Różnica między 3 a jest niewielka, ale sama się zmieni podczas porównywania dystrybucji. Nawet jeśli rozkład byłby naprawdę normalny, skończyłbyś się antykonserwatywnym rozkładem wartości p:źródło
hist(replicate(1000, ks.test(rpois(1000, 10), rpois(1000, 10))$p.value))
pokazuje, że test porównujący dwie identyczne rozkłady Poissona byłby zbyt konserwatywny.Oto o wiele łatwiejszy sposób na zrozumienie:
Możesz spojrzeć na rozkład dwumianowy jako „matkę” większości rozkładów. Rozkład normalny jest jedynie przybliżeniem rozkładu dwumianowego, gdy n staje się wystarczająco duże. W rzeczywistości Abraham de Moivre zasadniczo odkrył rozkład normalny, próbując przybliżyć rozkład dwumianowy, ponieważ szybko wymyka się obliczeniom rozkładu dwumianowego, ponieważ n rośnie, zwłaszcza gdy nie masz komputerów ( odniesienie ).
Rozkład Poissona jest także kolejnym przybliżeniem rozkładu dwumianowego, ale utrzymuje się znacznie lepiej niż rozkład normalny, gdy n jest duże, a p jest małe, a dokładniej, gdy średnia jest w przybliżeniu taka sama jak wariancja (pamiętaj, że dla rozkładu dwumianowego średnia = np i var = np (1-p)) ( odniesienie ). Dlaczego ta szczególna sytuacja jest tak ważna? Wygląda na to, że dużo się to dzieje w prawdziwym świecie i dlatego mamy to „specjalne” przybliżenie. Poniższy przykład ilustruje scenariusze, w których przybliżenie Poissona działa naprawdę świetnie.
Przykład
Mamy centrum danych obejmujące 100 000 komputerów. Prawdopodobieństwo awarii dowolnego komputera dzisiaj wynosi 0,001. Średnio np. 100 komputerów ulega awarii w centrum danych. Jakie jest prawdopodobieństwo, że dzisiaj tylko 50 komputerów ulegnie awarii?
W rzeczywistości jakość aproksymacji dla rozkładu normalnego spada w dół, gdy idziemy na ogon rozkładu, ale Poisson nadal trzyma się bardzo ładnie. W powyższym przykładzie zastanówmy się, jakie jest prawdopodobieństwo, że dzisiaj tylko 5 komputerów ulegnie awarii?
Mamy nadzieję, że daje to lepsze intuicyjne zrozumienie tych 3 dystrybucji.
źródło
Myślę, że warto wspomnieć, że Poisson ( ) pmf jest ograniczającym pmf dwumianu ( , ) o .n p n p n = λ / nλ n pn pn=λ/n
Na tym blogu można znaleźć jeden dość długi rozwój .
Ale możemy to również udowodnić ekonomicznie tutaj. Jeśli to dla ustalonegok P ( X n = k )Xn∼Binomial(n,λ/n) k
Łatwo zauważyć, że pierwsze i ostatnie warunki zbiegają się do 1 jako (przypominając, że jest ustalone). Tak więc jak od .n→∞ k n → ∞ ( 1 - λ / n ) n → e - λ
Dodatkowo, mamy normalne przybliżenie do dwumianu, tj. Dwumianowy ( , ) . Przybliżenie poprawia się i pozostaje z dala od 0 do 1. Oczywiście reżimu Poissona nie jest (ponieważ ), ale większe jest większe może być i nadal ma rozsądne normalne przybliżenie.n p n → ∞≊dN(np,np(1−p)) n→∞ p n = λ / n → 0 λ np pn=λ/n→0 λ n
źródło