W „Analizie danych” DS Sivii istnieje pochodna rozkładu Poissona z rozkładu dwumianowego.
Twierdzą, że rozkład Poissona jest ograniczającym przypadkiem rozkładu dwumianowego, gdy , gdzie jest liczbą prób.
Pytanie 1: Jak intuicyjnie zrozumieć ten argument?
Pytanie 2: Dlaczego dużymi limit równa, gdziejest liczbą sukcesów wpróbach? (Ten krok jest używany do wyprowadzenia).
binomial
poisson-distribution
combinatorics
intuition
probability-calculus
Ytsen de Boer
źródło
źródło
Odpowiedzi:
Spróbuję prostego, intuicyjnego wyjaśnienia. Zapisz, że dla dwumianowej zmiennej losowejX∼Bin(n,p) spodziewamy się, że np a wariancja to np(1−p) . Teraz pomyśl, że X rejestruje liczbę zdarzeń w bardzo dużej liczbie n prób, z których każde z bardzo małym prawdopodobieństwem p , tak, że jesteśmy bardzo blisko 1−p=1 (naprawdę ≈ ). Mamy zatem np=λ powiedzmy, i np(1−p)≈np1=λ , więc zarówno średnia, jak i wariancja są równe λ . Pamiętaj więc, że dla losowej zmiennej rozkładanej poissonem zawsze mamy średnią i wariancję równe! Jest to przynajmniej prawdopodobny argument za przybliżeniem Poissona, ale nie dowód.
Następnie spójrz na to z innego punktu widzenia, proces punktu Poissona https://en.wikipedia.org/wiki/Poisson_point_process na prawdziwej linii. Oto rozkład losowych punktów na linii, który otrzymujemy, jeśli losowe punkty wystąpią zgodnie z zasadami:
Zatem rozkład liczby punktów w danym przedziale (niekoniecznie krótki) wynosi Poissona (z parametrem proporcjonalnym do długości). Teraz, jeśli podzielimy ten przedział na bardzo wiele, równie bardzo krótkich podinterwali ( n ), prawdopodobieństwo dwóch lub więcej punktów w danej podinterval będzie zasadniczo zerowe, więc liczba ta będzie miała, w bardzo dobrym przybliżeniu, rozkład bernolli, to znaczy Bin ( 1 , p ) , więc suma tego wszystkiego będzie Bin ( n , p ) , więc dobre przybliżenie rozkładu poissona liczby punktów w tym (długim) przedziale.λ n Bin(1,p) Bin(n,p)
Edytuj z @Ytsen de Boer (OP): na pytanie nr 2 zadowalająco odpowiada @ Łukasz Grad.
źródło
Pozwól, że przedstawię alternatywną heurystykę. Pokażę, jak aproksymować proces Poissona jako dwumianowy (i argumentować, że aproksymacja jest lepsza dla wielu prób o niskim prawdopodobieństwie). Dlatego rozkład dwumianowy musi mieć tendencję do rozkładu Poissona.
Powiedzmy, że wydarzenia dzieją się ze stałą szybkością w czasie. Chcemy poznać rozkład liczby zdarzeń, które miały miejsce w ciągu dnia, wiedząc, że oczekiwana liczba zdarzeń wynosiλ .
Oczekiwana liczba zdarzeń na godzinę toλ / 24 . Udawajmy, że oznacza to, że prawdopodobieństwo wystąpienia zdarzenia w danej godzinie wynosi λ / 24 . [to nie do końca właściwe, ale jest to przyzwoite przybliżenie, jeśli λ / 24 ≪ 1 zasadzie, jeśli możemy założyć, że wiele zdarzeń nie wydarzy się w tej samej godzinie]. Następnie możemy aproksymować rozkład liczby zdarzeń jako dwumianowy z próbami M.= 24 , z których każde ma prawdopodobieństwo powodzenia λ / 24 .
Poprawiamy przybliżenie, zmieniając interwał na minuty. To jestp = λ / 1440 z M.= 1440 prób. Jeśli λ jest w pobliżu, powiedzmy 10, możemy być całkiem pewni, że żadna minuta nie miała dwóch zdarzeń.
Oczywiście będzie lepiej, jeśli przejdziemy do sekund. Teraz patrzymy naM.= 86400 zdarzeń z małym prawdopodobieństwem λ / 86400 .
Bez względu na to jak dużeλ jest, mogę w końcu wybrać na tyle mała Δ t taki, że jest to bardzo prawdopodobne, że nie ma dwóch zdarzeń zdarzy się w tym samym przedziale. Następnie rozkładu dwumianowego odpowiadające tym Δ t będzie doskonale pasuje do prawdziwego rozkładu Poisson'a.
Jedynym powodem, dla którego nie są dokładnie takie same, jest to, że istnieje niezerowe prawdopodobieństwo, że dwa zdarzenia wystąpią w tym samym przedziale czasu. Ale biorąc pod uwagę, że istnieje tylko około zdarzeńλ i są one podzielone na pewną liczbę przedziałów znacznie większych niż λ , jest mało prawdopodobne, aby jakieś dwa z nich leżały w tym samym pojemniku.
Albo innymi słowy, rozkład dwumianowy tendencję do rozkładu Poissona jakoM.→ ∞ , jeśli prawdopodobieństwo sukcesu jest p = λ / M .
źródło
Pytanie 1
Przypomnijmy definicję rozkładu dwumianowego:
Porównaj to z definicją rozkładu Poissona:
Zasadnicza różnica między 2 polega na tym, że dwumian jest wn próbach Poissona jest w okresie czasu . W jaki sposób limit może występować intuicyjnie?t
Powiedzmy, że musisz kontynuować próby Bernoulli przez całą wieczność. Ponadto wykonujesz na minutę. Na minutę liczysz każdy sukces. Tak więc przez całą wieczność co minutę uruchamiasz proces B i n ( p , 30 ) . W ciągu 24 godzin, masz B i n ( p , 43200 ) .n=30 Bin(p,30) Bin(p,43200)
Kiedy się zmęczysz, pytasz: „ile sukcesów miało miejsce między 18:00 a 19:00?”. Twoja odpowiedź może wynosić , tzn. Zapewniasz średni sukces w ciągu godziny. Brzmi dla mnie bardzo podobnie do parametru Poissona λ .30∗60∗p λ
źródło
Pytanie 2)
Biorąc limit dla ustalonegoN
źródło
The problem is that your characterization of the Poisson as a limiting case of the binomial distribution is not quite correct as stated.
The Poisson is a limiting case of the binomial when:
What the Poisson distribution assumes is that events are rare. What we mean by "rare" is not that the rate of events is small--indeed, a Poisson process may have a very high intensityλ --but rather, that the probability of an event occurring at any instant in time [t,t+dt) is vanishingly small. This is in contrast to a binomial model where the probability p of an event (e.g. "success") is fixed for any given trial.
To illustrate, suppose we model a series ofM independent Bernoulli trials each with probability of success p , and we look at what happens to the distribution of the number of successes X as M→∞ . For any N as large as we please, and no matter how small p is, the expected number of successes E[X]=Mp>N for M>N/p . Put another way, no matter how unlikely the probability of success, eventually you can achieve an average number of successes as large as you please if you perform sufficiently many trials. So, M→∞ (or, just saying "M is large") is not enough to justify a Poisson model for X .
It is not difficult to algebraically establish
źródło
I can only attempt a part answer and it is about the intuition for Question 2, not a rigorous proof.
The binomial coefficient gives you the number of samples of sizeN , from M , without replacement and without order.
Here thoughM becomes so large that you may approximate the scenario as sampling with replacement in which case you get
MN ordered samples. If you don't care about the order of the N objects chosen this reduces to MN/N! because those N objects
can be ordered in N! ways.
źródło
I think this is the best example that intuitively explains how binomial distribution converges to normal with large number of balls. Here, each ball has equal probability of falling on either side of the peg in each layer and all the balls have to face same number of pegs. It can be easily seen that as the number of balls goes very high the distribution of balls in different sections will be like normal distribution.
My answer to your question 2 is same as the answer given by Lukasz.
źródło