Czy istnieją przykłady, w których nie obowiązuje twierdzenie o limicie centralnym?

32

Wikipedia mówi -

W teorii prawdopodobieństwa centralne twierdzenie graniczne (CLT) ustala, że w większości sytuacji , gdy dodaje się niezależne zmienne losowe, ich odpowiednio znormalizowana suma zmierza w kierunku rozkładu normalnego (nieformalnie „krzywej dzwonowej”), nawet jeśli same zmienne pierwotne nie są normalnie dystrybuowane ...

Kiedy mówi „w większości sytuacji”, w jakich sytuacjach nie działa centralne twierdzenie graniczne?

Ryan McCauley
źródło

Odpowiedzi:

33

Aby to zrozumieć, musisz najpierw podać wersję Central Limit Theorem. Oto „typowe” stwierdzenie centralnego twierdzenia o granicy:

Lindeberg – Lévy CLT. Załóżmy, że X1,X2, jest sekwencją losowych zmiennych iid z i . Niech . Następnie, gdy zbliża się do nieskończoności, zmienne losowe zbiegają się w rozkładzie do normalnego tj.V a r [ X i ] = σ 2 < S n : = X 1 + + X nE[Xi]=μVar[Xi]=σ2< nSn:=X1++XnnnN(0,σ2)n(Snμ)N(0,σ2)

n((1ni=1nXi)μ) d N(0,σ2).

Czym zatem różni się to od nieformalnego opisu i jakie są luki? Istnieje kilka różnic między twoim nieformalnym opisem a tym opisem, z których niektóre zostały omówione w innych odpowiedziach, ale nie do końca. Możemy więc przekształcić to w trzy konkretne pytania:

  • Co się stanie, jeśli zmienne nie zostaną identycznie rozmieszczone?
  • Co jeśli zmienne mają nieskończoną wariancję lub nieskończoną średnią?
  • Jak ważna jest niezależność?

Biorąc je pojedynczo,

Nie identycznie rozmieszczone , najlepsze wyniki ogólne to wersje centralnego twierdzenia o granicy Lindeberga i Lyaponova. Zasadniczo, o ile standardowe odchylenia nie rosną zbyt dziko, można z tego uzyskać przyzwoite centralne twierdzenie o limicie.

Lyapunov CLT. [5] Załóżmy, że jest sekwencją niezależnych zmiennych losowych, każda o skończonej oczekiwanej wartości i wariancji Zdefiniuj:μ i σ 2 s 2 n =n i = 1X1,X2,μiσ2sn2=i=1nσi2

Jeśli dla niektórych , warunek Lapunowa jest spełnione, a następnie suma zbiega się w rozkładzie do standardowej normalnej zmiennej losowej, gdy n idzie w nieskończoność:lim n 1δ>0Xi-μi/snlimn1sn2+δi=1nE[|Xiμi|2+δ]=0Xiμi/sn

1sni=1n(Xiμi) d N(0,1).

Twierdzenia o nieskończonej wariancji podobne do twierdzenia o granicy centralnej istnieją dla zmiennych o nieskończonej wariancji, ale warunki są znacznie węższe niż w przypadku zwykłego twierdzenia o granicy centralnej. Zasadniczo ogon rozkładu prawdopodobieństwa musi być asymptotyczny do dla . W takim przypadku odpowiednie skalowane sumy są zbieżne do stabilnego rozkładu Levy-Alpha . 0 < α < 2|x|α10<α<2

Znaczenie niezależności Istnieje wiele różnych centralnych twierdzeń granicznych dla nie-niezależnych sekwencji . Wszystkie są wysoce kontekstualne. Jak zauważa Batman, jest jedna dla Martingales. To pytanie jest ciągłym obszarem badań, z wieloma, wieloma różnymi odmianami w zależności od konkretnego kontekstu zainteresowania. To pytanie dotyczące wymiany matematyki jest kolejnym postem związanym z tym pytaniem.Xi

Jan
źródło
2
Usunąłem zbłąkane „>” ze wzoru, który, jak sądzę, wkradł się ze względu na system cytowania - możesz cofnąć moją edycję, jeśli była zamierzona!
Silverfish
Trójkątna tablica CLT jest prawdopodobnie bardziej reprezentatywnym CLT niż ten podany. Jeśli chodzi o nie-niezależne, martingale CLT są dość powszechnie stosowanym przypadkiem.
Batman
@ Batman, jaki jest przykład trójkątnej tablicy CLT? Zmodyfikuj moją odpowiedź, aby ją dodać. Nie znam tego.
Jan
1
„Dopóki odchylenia standardowe nie rosną zbyt gwałtownie” lub zmniejszyć (np )σi2=σi12/2
leonbloy
21

Chociaż jestem prawie pewien, że już na nie udzielono odpowiedzi, oto kolejny:

Istnieje kilka wersji centralnego twierdzenia granicznego, z których najbardziej ogólnym jest to, że przy dowolnych funkcjach gęstości prawdopodobieństwa suma zmiennych będzie rozkładana normalnie ze średnią wartością równą sumie średnich wartości, a wariancja jest sumą poszczególnych wariancji.

Bardzo ważnym i istotnym ograniczeniem jest to, że średnia i wariancja danych plików pdf muszą istnieć i muszą być skończone.

Tak więc, po prostu weź dowolny plik pdf bez średniej wartości lub wariancji - a centralne twierdzenie o limicie nie będzie już dłużej obowiązywać. Weźmy na przykład rozkład Lorentza.

cherub
źródło
+1 Lub weź rozkład z nieskończoną wariancją, jak rozkład losowego spaceru.
Alexis
2
@Alexis - zakładając, że patrzysz na losowy spacer w skończonym momencie, pomyślałbym, że będzie miał skończoną wariancję, będącą sumą iid kroków, z których każda ma skończoną wariancjęn
Henry
1
@Henry: Nie, nie zakładam w pewnym momencie, ale wariancja rozkładu wszystkich możliwych przypadkowych spacerów o nieskończonej długości.
Alexis
1
@Alexis Jeśli każdy krok losowego marszu wynosi + 1 lub - 1 iid z jednakowym prawdopodobieństwem, a pozycje to Y n = n 1 X i, wówczas Centralne Twierdzenie Graniczne poprawnie implikuje, że jako n masz rozkład Xi+11Yn=1nXin zbieżne w rozkładzie doN(0,1)n(1nYn)=YnnN(0,1)
Henry
1
@Alexis Nie ma znaczenia dla CLT, ponieważ każda indywidualna dystrybucja nadal ma skończoną wariancję.
Cubic
15

Nie, CLT zawsze obowiązuje, gdy zachodzą jego założenia. Kwalifikacje, takie jak „w większości sytuacji”, są nieformalnymi odniesieniami do warunków, na jakich należy stosować CLT.

Na przykład liniowa kombinacja zmiennych niezależnych z rozkładu Cauchy'ego nie sumuje się do zmiennej rozproszonej normalnej . Jednym z powodów jest to, że wariancja jest niezdefiniowana dla rozkładu Cauchy'ego , podczas gdy CLT stawia pewne warunki dla wariancji, np. Że musi być skończona. Ciekawą implikacją jest to, że ponieważ symulacje Monte Carlo są motywowane przez CLT, należy zachować ostrożność podczas symulacji Monte Carlo, mając do czynienia z rozkładami tłuszczowymi, takimi jak Cauchy.

Uwaga: istnieje uogólniona wersja CLT. Działa dla nieskończonych lub nieokreślonych wariancji, takich jak rozkład Cauchy'ego. W przeciwieństwie do wielu dobrze zachowujących się rozkładów, odpowiednio znormalizowaną sumą liczb Cauchy'ego pozostaje Cauchy. Nie jest zbieżny do Gaussa.

Nawiasem mówiąc, nie tylko Gaussa, ale wiele innych dystrybucji ma pliki PDF w kształcie dzwonu, np. Student t. Dlatego cytowany przez ciebie opis jest dość liberalny i nieprecyzyjny, być może celowy.

Aksakal
źródło
7

Oto ilustracja odpowiedzi aniołka, histogram 1e5 rysuje ze skalowanej (przez ) próbka średnich rozkładów t o dwóch stopniach swobody, tak żewariancja nie istnieje.n

Jeśli zastosował się CLT, histogram dla tak dużej jak n = 1000 powinien przypominać gęstość standardowego rozkładu normalnego (który np. Ma gęstość 1 / nn=1000u szczytu), co najwyraźniej nie.1/2π0.4

enter image description here

library(MASS)
n <- 1000
samples.from.t <- replicate(1e5, sqrt(n)*mean(rt(n, df = 2)))
truehist(samples.from.t, xlim = c(-10,10), col="salmon")
Christoph Hanck
źródło
3
t3)0,416π0,231
To dobra uwaga, można standaryzować średnią, sd(x)uzyskując coś, co, jeśli CLT działa, zbiega się według twierdzenia Slutzky'ego, do zmiennej N (0,1). Chciałem, aby przykład był prosty, ale oczywiście masz rację.
Christoph Hanck
6

Prostym przypadkiem, w którym CLT nie jest w stanie utrzymać się z bardzo praktycznych powodów, jest sytuacja, gdy sekwencja zmiennych losowych zbliża się do granicy prawdopodobieństwa ściśle z jednej strony . Jest to spotykane na przykład w estymatorach, które szacują coś, co leży na granicy.

θU(0,θ)θθθ

Prawidłowo skalowany estymator ma rozkład ograniczający - ale nie „odmiany CLT”.

Alecos Papadopoulos
źródło
3

Tutaj znajdziesz szybkie rozwiązanie .

Powstają wyjątki od twierdzenia o granicy centralnej

  1. Gdy istnieje wiele maksimów tej samej wysokości, i
  2. Gdzie druga pochodna znika maksymalnie.

Istnieją pewne inne wyjątki przedstawione w odpowiedzi na @cherub.


To samo pytanie zostało już zadane na math.stackexchange . Tam możesz sprawdzić odpowiedzi.

Ferdi
źródło
5
Mówiąc „maxima”, masz na myśli tryby? Bimodal nie ma nic wspólnego z niezadowoleniem CLT.
Kumulacja
@Acccumulation: Sformułowanie tutaj jest mylące, ponieważ faktycznie odnosi się do PGF dyskretnego rv M.(z)=n=-P.(X=n)zn
Alex R.
@AlexR. Odpowiedź nie ma sensu bez przeczytania linku i jest daleka od jasności nawet w przypadku linku. Skłaniam się ku głosowaniu w dół, ponieważ jest jeszcze gorsza niż odpowiedź tylko za pomocą linku.
Akumulacja