Dlatego nie dziełem CLT dla

16

Wiemy zatem, że suma n poissonów o parametrze λ jest sama w sobie poissonem o nλ . Tak więc teoretycznie może przyjąć xpoisson(λ=1) i powiedzieć, że jest w rzeczywistości 1nxipoisson(λ=1) , gdzie każdy z xi jest: xipoisson(λ=1/n) , a n ma dużą, aby CLT do pracy.

To (oczywiście) nie działa. Zakładam, że ma to coś wspólnego z tym, jak CLT działa „szybciej” dla zmiennych losowych, które są „bliższe” normie, i że im mniejsza lambda, tym bardziej otrzymujemy zmienną losową, która w większości wynosi 0 i rzadko zmienia się coś innego.

Wyjaśniłem jednak moją intuicję. Czy istnieje bardziej formalny sposób wyjaśnienia, dlaczego tak jest?

Dzięki!

Tal Galili
źródło
6
Na początek CLT wymaga podzielenia i=1nxi przez n (w którym to przypadku zbiegniesz się w gaussa).
Alex R.
1
@AlexR. Nie, dzielisz przez n , wówczas odchylenie standardowe będzie miało współczynnik 1/n
Aksakal
4
Nie rozumiem, co to pytanie ma wspólnego z tym, że CLT „nie działa”. CLT dotyczy znormalizowanych sum zmiennych losowych o danym rozkładzie, podczas gdy bierzesz pojedynczą zmienną losową i rozważasz nieskończenie wiele sposobów jej podziału .
whuber
2
@AlexR Konfiguracja wydaje się być nieprawidłowa. Działają tutaj dwa różne procesy - sumowanie i podział - i nie ma powodu, aby przypuszczać, że powinny mieć podobne cechy asymptotyczne.
whuber
3
@Aksakal: właściwie AlexR ma rację. Jeśli podzielisz przez , otrzymasz rozkład zdegenerowany jako n . Jeśli podzielisz przez nn , zbliżasz się do rozkładu normalnego z sd = 1 jakon. nn
Cliff AB

Odpowiedzi:

13

Zgadzam się z @whuber, że przyczyną zamieszania wydaje się zastąpienie asymptotycznego sumowania w CLT pewnym rodzajem podziału w twoim argumencie. W CLT otrzymujemy stałą dystrybucji , a następnie wyciągnąć n liczba x I z niego i oblicza sumę ˂ x n = 1f(x,λ)nxi . Jeśli ciągle zwiększamyn, dzieje się coś interesującego: x¯n=1ni=1nxin gdzieμ,σ2są średnią, a wariancja rozkładuf(x).

n(x¯nμ)N(0,σ2)
μ,σ2f(x)

Co sugerujesz zrobić z Poissona jest nieco wstecz: zamiast zsumowanie zmiennych ze stałej dystrybucji, chcesz podzielić się stałą dystrybucję do ciągle zmieniających się części. Innymi słowy, bierzesz zmienną ze stałego rozkładu f ( x , λ ), a następnie dzielisz ją na x i , aby n i = 1 x ixxf(x,λ)xi

i=1nxix

Co mówi CLT o tym procesie? Nic. Uwaga: jak w CLT zawsze się zmieniamy i jegozmiennyrozkładfn(x),który jest zbieżny dostałegorozkładuN(0,σ2)n(x¯nμ)fn(x)N(0,σ2)

W twoim ustawieniu ani suma ani jej rozkład f ( x , λ )xf(x,λ) nie zmieniają! Są naprawione. Nie zmieniają się, nie zbliżają się do niczego. CLT nie ma więc nic do powiedzenia na ich temat.

Ponadto CLT nie mówi nic o liczbie elementów w sumie. Możesz mieć sumę 1000 zmiennych z Poissona (0,001), a CLT nie powie nic na temat tej sumy. Mówi tylko, że jeśli nadal będziesz zwiększać N, w pewnym momencie suma ta zacznie wyglądać jak rozkład normalny . W rzeczywistości, jeśli N = 1 000 000, otrzymasz dokładne przybliżenie rozkładu normalnego.1Ni=1Nxi,xiPoisson(0.001)

Twoja intuicja ma rację tylko w odniesieniu do liczby elementów w sumie, tj. Bardziej niż rozkład początkowy różni się od normalnego, to więcej elementów musisz zsumować, aby dojść do normy. Im bardziej formalny (ale wciąż nieformalnego) sposobem byłoby patrząc na charakterystycznej funkcji Poissona: Jeśli X > > 1 , można dostać się z ekspansją Taylor (wrt t ) zagnieżdżonego wykładnika: exp ( i λ t - λ / 2 t 2

exp(λ(exp(it)1))
λ>>1t
exp(iλtλ/2t2)
Jest to funkcja charakterystyczna rozkładu normalnego N(λ,λ2)

Jednak twoja intuicja nie jest poprawnie stosowana: przesuwanie podsumowania w CLT z pewnym rodzajem podziału psuje rzeczy i sprawia, że ​​CLT nie ma zastosowania.

Aksakal
źródło
+1 Wstępny materiał jest ładnie sformułowany, bardzo przejrzysty i trafia do sedna problemu.
whuber
7

Problem z twoim przykładem polega na tym, że zezwalasz na zmianę parametrów wraz ze zmianą . CLT mówi ci, że dla ustalonego rozkładu ze skończoną średnią i sd, jak n ,nn

,xμndN(0,σ)

gdzie i σ pochodzą ze średniej i sd rozkładu x .μσx

Of course, for different distributions (i.e. higher skewed for example), larger n's are required before the approximation derived from this theorem become reasonable. In your example, for λm=1/m, an n>>m is required before the normal approximation is reasonable.

EDIT

There is discussion about how the CLT does not apply to sums, but rather to standardized sums (i.e. xi/n not xi). In theory, this is of course true: the unstandardized sum will have an undefined distribution in most cases.

However, in practice, you certainly can apply the approximation justified by the CLT to sums! If Fx¯ can be approximated by a normal CDF for large n, then certainly Fx can too, as multiplying by a scalar preserves normality. And you can see this right away in this problem: recall that if XiPois(λ), then Y=i=1nXiPois(nλ). And we all learned in our upper division probability course that for large λ, the CDF of a Pois(λ) can be approximated quite well by a normal with μ=λ, σ2=λ. So for any fixed λ, we can approximate the CDF of YPois(nλ) fairly well with Φ(ynλnλ) for a large enough n if λ>0 (approximation can trivially be applied if λ=0, but not the calculation of the CDF as I have written it).

While the CLT does not readily apply to sums, the approximation based on the CLT certainly does. I believe this is what the OP was referring to when discussing applying the CLT to the sum.

Cliff AB
źródło
5

The question is, I argue, more interesting if thought about more generally, letting the distribution of the parent Poisson depend on n, say with parameter λn and λn=1 as a special case. I think it's perfectly reasonable to ask why, and how we can understand that, a central limit theorem does not hold for the sum Sn=i=1nXi,n. After all, it's common to apply a CLT even in problems where the distributions of the components of the sum depend on n. It's also common to decompose Poisson distributions as the distribution of a sum of Poisson variables, and then apply a CLT.

The key issue as I see it is that your construction implies the distribution of Xi,n depends on n in such a way that the parameter of the distribution of Sn does not grow in n. If you would instead have taken, for example, SnPoi(n) and made the same decomposition, the standard CLT would apply. In fact, one can think of many decompositions of a Poi(λn) distribution that allows for application of a CLT.

The Lindeberg-Feller Central Limit Theorem for triangular arrays is often used to examine convergence of such sums. As you point out, SnPoi(1) for all n, so Sn cannot be asymptotically normal. Still, examining the Lindeberg-Feller condition sheds some light on when decomposing a Poisson into a sum may lead to progress.

A version of the theorem may be found in these notes by Hunter. Let sn2=Var(Sn). The Lindeberg-Feller condition is that, ϵ>0:

1sn2i=1nE[Xi,n1/n]2I(|Xi,n1/n|>ϵsn)0,n

Now, for the case at hand, the variance of the terms in the sum is dying off so quickly in n that sn=1 for every n. For fixed n, we also have that the Xi,n are iid. Thus, the condition is equivalent to

nE[X1,n1/n]2I(|X1,n1/n|>ϵ)0.

But, for small ϵ and large n,

nE[X1,n1/n]2I(|X1,n1/n|>ϵ)>nϵ2P(X1,n>0)=ϵ2n[1e1/n]=ϵ2n[1(11/n+o(1/n))]=ϵ2+o(1),

which does not approach zero. Thus, the condition fails to hold. Again, this is as expected since we already know the exact distribution of Sn for every n, but going through these calculations gives some indications of why it fails: if the variance didn't die off as quickly in n you could have the condition hold.

ekvall
źródło
+1 This nicely illuminates a comment by @AlexR to the question, too.
whuber