Aby to zrozumieć, musisz najpierw podać wersję Central Limit Theorem. Oto „typowe” stwierdzenie centralnego twierdzenia o granicy:
Lindeberg – Lévy CLT. Załóżmy, że X1,X2,… jest sekwencją losowych zmiennych iid z i . Niech . Następnie, gdy
zbliża się do nieskończoności, zmienne losowe zbiegają się w rozkładzie do normalnego tj.V a r [ X i ] = σ 2 < ∞ S n : = X 1 + ⋯ + X nE[Xi]=μVar[Xi]=σ2<∞ n√Sn:=X1+⋯+XnnnN(0,σ2)n−−√(Sn−μ)N(0,σ2)
n−−√((1n∑i=1nXi)−μ) →d N(0,σ2).
Czym zatem różni się to od nieformalnego opisu i jakie są luki? Istnieje kilka różnic między twoim nieformalnym opisem a tym opisem, z których niektóre zostały omówione w innych odpowiedziach, ale nie do końca. Możemy więc przekształcić to w trzy konkretne pytania:
- Co się stanie, jeśli zmienne nie zostaną identycznie rozmieszczone?
- Co jeśli zmienne mają nieskończoną wariancję lub nieskończoną średnią?
- Jak ważna jest niezależność?
Biorąc je pojedynczo,
Nie identycznie rozmieszczone , najlepsze wyniki ogólne to wersje centralnego twierdzenia o granicy Lindeberga i Lyaponova. Zasadniczo, o ile standardowe odchylenia nie rosną zbyt dziko, można z tego uzyskać przyzwoite centralne twierdzenie o limicie.
Lyapunov CLT. [5] Załóżmy, że jest sekwencją niezależnych zmiennych losowych, każda o skończonej oczekiwanej wartości i wariancji
Zdefiniuj:μ i σ 2 s 2 n = ∑ n i = 1X1,X2,…μiσ2s2n=∑ni=1σ2i
Jeśli dla niektórych , warunek Lapunowa
jest spełnione, a następnie suma zbiega się w rozkładzie do standardowej normalnej zmiennej losowej, gdy n idzie w nieskończoność:lim n → ∞ 1δ>0Xi-μi/snlimn→∞1s2+δn∑i=1nE[|Xi−μi|2+δ]=0Xi−μi/sn
1sn∑ni=1(Xi−μi) →d N(0,1).
Twierdzenia o nieskończonej wariancji podobne do twierdzenia o granicy centralnej istnieją dla zmiennych o nieskończonej wariancji, ale warunki są znacznie węższe niż w przypadku zwykłego twierdzenia o granicy centralnej. Zasadniczo ogon rozkładu prawdopodobieństwa musi być asymptotyczny do dla . W takim przypadku odpowiednie skalowane sumy są zbieżne do stabilnego rozkładu Levy-Alpha . 0 < α < 2|x|−α−10<α<2
Znaczenie niezależności Istnieje wiele różnych centralnych twierdzeń granicznych dla nie-niezależnych sekwencji . Wszystkie są wysoce kontekstualne. Jak zauważa Batman, jest jedna dla Martingales. To pytanie jest ciągłym obszarem badań, z wieloma, wieloma różnymi odmianami w zależności od konkretnego kontekstu zainteresowania. To pytanie dotyczące wymiany matematyki jest kolejnym postem związanym z tym pytaniem.Xi
Chociaż jestem prawie pewien, że już na nie udzielono odpowiedzi, oto kolejny:
Istnieje kilka wersji centralnego twierdzenia granicznego, z których najbardziej ogólnym jest to, że przy dowolnych funkcjach gęstości prawdopodobieństwa suma zmiennych będzie rozkładana normalnie ze średnią wartością równą sumie średnich wartości, a wariancja jest sumą poszczególnych wariancji.
Bardzo ważnym i istotnym ograniczeniem jest to, że średnia i wariancja danych plików pdf muszą istnieć i muszą być skończone.
Tak więc, po prostu weź dowolny plik pdf bez średniej wartości lub wariancji - a centralne twierdzenie o limicie nie będzie już dłużej obowiązywać. Weźmy na przykład rozkład Lorentza.
źródło
Nie, CLT zawsze obowiązuje, gdy zachodzą jego założenia. Kwalifikacje, takie jak „w większości sytuacji”, są nieformalnymi odniesieniami do warunków, na jakich należy stosować CLT.
Na przykład liniowa kombinacja zmiennych niezależnych z rozkładu Cauchy'ego nie sumuje się do zmiennej rozproszonej normalnej . Jednym z powodów jest to, że wariancja jest niezdefiniowana dla rozkładu Cauchy'ego , podczas gdy CLT stawia pewne warunki dla wariancji, np. Że musi być skończona. Ciekawą implikacją jest to, że ponieważ symulacje Monte Carlo są motywowane przez CLT, należy zachować ostrożność podczas symulacji Monte Carlo, mając do czynienia z rozkładami tłuszczowymi, takimi jak Cauchy.
Uwaga: istnieje uogólniona wersja CLT. Działa dla nieskończonych lub nieokreślonych wariancji, takich jak rozkład Cauchy'ego. W przeciwieństwie do wielu dobrze zachowujących się rozkładów, odpowiednio znormalizowaną sumą liczb Cauchy'ego pozostaje Cauchy. Nie jest zbieżny do Gaussa.
Nawiasem mówiąc, nie tylko Gaussa, ale wiele innych dystrybucji ma pliki PDF w kształcie dzwonu, np. Student t. Dlatego cytowany przez ciebie opis jest dość liberalny i nieprecyzyjny, być może celowy.
źródło
Oto ilustracja odpowiedzi aniołka, histogram 1e5 rysuje ze skalowanej (przez ) próbka średnich rozkładów t o dwóch stopniach swobody, tak żewariancja nie istnieje.n−−√
Jeśli zastosował się CLT, histogram dla tak dużej jak n = 1000 powinien przypominać gęstość standardowego rozkładu normalnego (który np. Ma gęstość 1 / √n n=1000 u szczytu), co najwyraźniej nie.1/2π−−√≈0.4
źródło
sd(x)
uzyskując coś, co, jeśli CLT działa, zbiega się według twierdzenia Slutzky'ego, do zmiennej N (0,1). Chciałem, aby przykład był prosty, ale oczywiście masz rację.Prostym przypadkiem, w którym CLT nie jest w stanie utrzymać się z bardzo praktycznych powodów, jest sytuacja, gdy sekwencja zmiennych losowych zbliża się do granicy prawdopodobieństwa ściśle z jednej strony . Jest to spotykane na przykład w estymatorach, które szacują coś, co leży na granicy.
Prawidłowo skalowany estymator ma rozkład ograniczający - ale nie „odmiany CLT”.
źródło
Tutaj znajdziesz szybkie rozwiązanie .
Powstają wyjątki od twierdzenia o granicy centralnej
Istnieją pewne inne wyjątki przedstawione w odpowiedzi na @cherub.
To samo pytanie zostało już zadane na math.stackexchange . Tam możesz sprawdzić odpowiedzi.
źródło