Wiemy zatem, że suma poissonów o parametrze jest sama w sobie poissonem o . Tak więc teoretycznie może przyjąć i powiedzieć, że jest w rzeczywistości , gdzie każdy z jest: , a n ma dużą, aby CLT do pracy.
To (oczywiście) nie działa. Zakładam, że ma to coś wspólnego z tym, jak CLT działa „szybciej” dla zmiennych losowych, które są „bliższe” normie, i że im mniejsza lambda, tym bardziej otrzymujemy zmienną losową, która w większości wynosi 0 i rzadko zmienia się coś innego.
Wyjaśniłem jednak moją intuicję. Czy istnieje bardziej formalny sposób wyjaśnienia, dlaczego tak jest?
Dzięki!
Odpowiedzi:
Zgadzam się z @whuber, że przyczyną zamieszania wydaje się zastąpienie asymptotycznego sumowania w CLT pewnym rodzajem podziału w twoim argumencie. W CLT otrzymujemy stałą dystrybucji , a następnie wyciągnąć n liczba x I z niego i oblicza sumę ˂ x n = 1f(x,λ) n xi . Jeśli ciągle zwiększamyn, dzieje się coś interesującego:
√x¯n=1n∑ni=1xi n
gdzieμ,σ2są średnią, a wariancja rozkładuf(x).
Co sugerujesz zrobić z Poissona jest nieco wstecz: zamiast zsumowanie zmiennych ze stałej dystrybucji, chcesz podzielić się stałą dystrybucję do ciągle zmieniających się części. Innymi słowy, bierzesz zmienną ze stałego rozkładu f ( x , λ ), a następnie dzielisz ją na x i , aby n ∑ i = 1 x i ≡ xx f(x,λ) xi
Co mówi CLT o tym procesie? Nic. Uwaga: jak w CLT zawsze się zmieniamy i jegozmiennyrozkładfn(x),który jest zbieżny dostałegorozkładuN(0,σ2)n−−√(x¯n−μ) fn(x) N(0,σ2)
W twoim ustawieniu ani suma ani jej rozkład f ( x , λ )x f(x,λ) nie zmieniają! Są naprawione. Nie zmieniają się, nie zbliżają się do niczego. CLT nie ma więc nic do powiedzenia na ich temat.
Ponadto CLT nie mówi nic o liczbie elementów w sumie. Możesz mieć sumę 1000 zmiennych z Poissona (0,001), a CLT nie powie nic na temat tej sumy. Mówi tylko, że jeśli nadal będziesz zwiększać N, w pewnym momencie suma ta zacznie wyglądać jak rozkład normalny . W rzeczywistości, jeśli N = 1 000 000, otrzymasz dokładne przybliżenie rozkładu normalnego.1N∑Ni=1xi,xi∼Poisson(0.001)
Twoja intuicja ma rację tylko w odniesieniu do liczby elementów w sumie, tj. Bardziej niż rozkład początkowy różni się od normalnego, to więcej elementów musisz zsumować, aby dojść do normy. Im bardziej formalny (ale wciąż nieformalnego) sposobem byłoby patrząc na charakterystycznej funkcji Poissona: Jeśli X > > 1 , można dostać się z ekspansją Taylor (wrt t ) zagnieżdżonego wykładnika: ≈ exp ( i λ t - λ / 2 t 2
Jednak twoja intuicja nie jest poprawnie stosowana: przesuwanie podsumowania w CLT z pewnym rodzajem podziału psuje rzeczy i sprawia, że CLT nie ma zastosowania.
źródło
Problem z twoim przykładem polega na tym, że zezwalasz na zmianę parametrów wraz ze zmianą . CLT mówi ci, że dla ustalonego rozkładu ze skończoną średnią i sd, jak n → ∞ ,n n→∞
,∑x−μn√→dN(0,σ)
gdzie i σ pochodzą ze średniej i sd rozkładu x .μ σ x
Of course, for different distributions (i.e. higher skewed for example), largern 's are required before the approximation derived from this theorem become reasonable. In your example, for λm=1/m , an n>>m is required before the normal approximation is reasonable.
EDIT
There is discussion about how the CLT does not apply to sums, but rather to standardized sums (i.e.∑xi/n−−√ not ∑xi ). In theory, this is of course true: the unstandardized sum will have an undefined distribution in most cases.
However, in practice, you certainly can apply the approximation justified by the CLT to sums! IfFx¯ can be approximated by a normal CDF for large n , then certainly F∑x can too, as multiplying by a scalar preserves normality. And you can see this right away in this problem: recall that if Xi∼Pois(λ) , then Y=∑ni=1Xi∼Pois(nλ) . And we all learned in our upper division probability course that for large λ , the CDF of a Pois(λ) can be approximated quite well by a normal with μ=λ , σ2=λ . So for any fixed λ , we can approximate the CDF of Y∼Pois(nλ) fairly well with Φ(y−nλnλ√) for a large enough n if λ>0 (approximation can trivially be applied if λ=0 , but not the calculation of the CDF as I have written it).
While the CLT does not readily apply to sums, the approximation based on the CLT certainly does. I believe this is what the OP was referring to when discussing applying the CLT to the sum.
źródło
The question is, I argue, more interesting if thought about more generally, letting the distribution of the parent Poisson depend onn , say with parameter λn and λn=1 as a special case. I think it's perfectly reasonable to ask why, and how we can understand that, a central limit theorem does not hold for the sum Sn=∑ni=1Xi,n . After all, it's common to apply a CLT even in problems where the distributions of the components of the sum depend on n . It's also common to decompose Poisson distributions as the distribution of a sum of Poisson variables, and then apply a CLT.
The key issue as I see it is that your construction implies the distribution ofXi,n depends on n in such a way that the parameter of the distribution of Sn does not grow in n . If you would instead have taken, for example, Sn∼Poi(n) and made the same decomposition, the standard CLT would apply. In fact, one can think of many decompositions of a Poi(λn) distribution that allows for application of a CLT.
The Lindeberg-Feller Central Limit Theorem for triangular arrays is often used to examine convergence of such sums. As you point out,Sn∼Poi(1) for all n , so Sn cannot be asymptotically normal. Still, examining the Lindeberg-Feller condition sheds some light on when decomposing a Poisson into a sum may lead to progress.
A version of the theorem may be found in these notes by Hunter. Lets2n=Var(Sn) . The Lindeberg-Feller condition is that, ∀ϵ>0 :
Now, for the case at hand, the variance of the terms in the sum is dying off so quickly inn that sn=1 for every n . For fixed n , we also have that the Xi,n are iid. Thus, the condition is equivalent to
But, for smallϵ and large n ,
which does not approach zero. Thus, the condition fails to hold. Again, this is as expected since we already know the exact distribution ofSn for every n , but going through these calculations gives some indications of why it fails: if the variance didn't die off as quickly in n you could have the condition hold.
źródło