Gdzie jest

36

Bardzo prosta wersja centralnego ograniczonego twierdzenia, jak poniżej

n((1ni=1nXi)μ) d N(0,σ2)
czyli Lindeberg – Lévy CLT. Nie rozumiem, dlaczegopo lewej stronieznajduje się. A Lyapunov CLT mówi ale dlaczego nie? Czy ktoś powiedziałby mi, jakie są te czynniki, takie jaki? jak uzyskać je w twierdzeniu?n
1sni=1n(Xiμi) d N(0,1)
snn1sn
Latająca świnia
źródło
3
Wyjaśniono to na stronie stats.stackexchange.com/questions/3734 . Ta odpowiedź jest długa, ponieważ wymaga „intuicji”. Stwierdza: „To proste przybliżenie, choć sugeruje, jak de Moivre może początkowo podejrzewali, że istnieje uniwersalny dystrybucja ograniczenie, że jej logarytm jest funkcją kwadratową, i że właściwą współczynnik skali sn musi być proporcjonalna do n .... "
whuber
1
Intuicyjnie, jeśli wszystkie σi=σ to sn=σi2=nσi 2. linia wynika z 1. linii:
n((1ni=1nXi)μ)=1ni=1n(Xiμ)d N(0,σ2)
podziel przezσ=snn
1ni=1n(Xiμ)snn=1sni=1n(Xiμi)d N(0,1)
(oczywiście warunek Lyapunova, połączenie wszystkichσi , to kolejne pytanie)
Sextus Empiricus

Odpowiedzi:

33

Ładne pytanie (+1) !!

Zapamiętasz, że dla niezależnych zmiennych losowych i Y , V a r ( X + Y ) = V a r ( X ) + V a r ( Y ) i V a r ( a X ) = a 2V a r ( X ) . Zatem wariancja n i = 1 X i wynosiXYVar(X+Y)=Var(X)+Var(Y)Var(aX)=a2Var(X)i=1nXi , a wariancja ˉ X = 1i=1nσ2=nσ2jestnσ2/n2=σ2/n.X¯=1nja=1nXjanσ2)/n2)=σ2)/n

To jest dla wariancji . Aby ustandaryzować zmienną losową, należy podzielić ją przez odchylenie standardowe. Jak wiadomo, oczekiwana wartość wynosi μ , więc zmiennaX¯μ

ma oczekiwaną wartość 0 i wariancję 1. Więc jeśli dąży do Gaussa, musi to być standardowy GaussianN(0,

X¯E(X¯)Var(X¯)=nX¯μσ
. Twoje sformułowanie w pierwszym równaniu jest równoważne. Przez pomnożenie lewej strony przez σ ustawiasz wariancję na σ 2 .N(0,1)σσ2

Jeśli chodzi o twój drugi punkt, uważam, że powyższe równanie ilustruje, że musisz podzielić przez a nie σ celu standaryzacji równania, wyjaśniając, dlaczego używaszsn(estymatorσ),a nieσsnσ) .sn

Dodanie: @whuber sugeruje omówienie przyczyny skalowania przez . Robi totam, ale ponieważ odpowiedź jest bardzo długa, postaram się uchwycić esencję jego argumentacji (która jest rekonstrukcją myśli de Moivre'a).n

Jeśli dodasz dużą liczbę + 1 i -1, możesz oszacować prawdopodobieństwo, że suma wyniesie j poprzez elementarne zliczanie. Log tego prawdopodobieństwa jest proporcjonalny do - j 2 / n . Jeśli więc chcemy, aby powyższe prawdopodobieństwo zbiegło się do stałej, gdy n staje się duże, musimy zastosować współczynnik normalizujący w O ( njj2/nn.O(n)

Korzystając z nowoczesnych narzędzi matematycznych (post de Moivre), można zobaczyć wspomniane wyżej przybliżenie, zauważając, że oczekiwane prawdopodobieństwo wynosi

P(j)=(nn/2+j)2n=n!2n(n/2+j)!(n/2j)!

które przybliżamy według wzoru Stirlinga

P(j)nnen/2+jen/2j2nen(n/2+j)n/2+j(n/2j)n/2j=(11+2j/n)n+j(112j/n)nj.

log(P(j))=(n+j)log(1+2j/n)(nj)log(12j/n)2j(n+j)/n+2j(nj)/nj2/n.
gui11aume
źródło
Proszę zobaczyć moje komentarze do poprzednich odpowiedzi Michaela C. i faceta.
whuber
Wygląda jak pierwsze równanie (LL CLT) s / b ? Zdezorientowało mnie to również, że σ 2 pojawiło się jako wariancja. n((1ni=1nXi)μ) d N(0,1)σ2
B_Miner
Jeśli sparametryzujesz Gaussa ze średnią i wariancją (nie odchylenie standardowe), to uważam, że formuła OP jest poprawna.
gui11aume
1
Ahh .. Biorąc pod uwagę, że jeśli pomnożymy ˉ X - E ( ˉ X )X¯E(X¯)Var(X¯)=nX¯μσd N(0,1) przezσotrzymujemy to, co pokazano przez OP (σanuluj): mianowicieX¯E(X¯)Var(X¯)σσ. Ale wiemy, że VAR (aX) = a ^ 2Var (X) gdzie w tym przypadku a =σ2i Var (X) wynosi 1, więc rozkład wynosiN(0,n((1ni=1nXi)μ)σ2 . N(0,σ2)
B_Miner
Gui, jeśli nie za późno, chciałem się upewnić, że mam to prawidłowe. Jeśli przyjmiemy i mnożymy przez stałą ( σ ) oczekiwaną wartość tej wielkości (tj.X¯E(X¯)Var(X¯)=n(X¯μ)d N(0,1)σ), który wynosił zero, wciąż jest zerowy, ponieważ E [aX] = a * E [X] =>σ* 0 = 0. Czy to jest poprawne? n(X¯μ)σ
B_Miner
8

Istnieje ładna teoria, jaki rodzaj rozkładów może ograniczać rozkłady sum zmiennych losowych. Miłym źródłem jest następująca książka Petrowa, którą osobiście bardzo mi się podobała.

Okazuje się, że jeśli badasz limity tego typu gdzie X i są niezależnymi zmiennymi losowymi, rozkłady limitów są tylko niektórymi rozkładami.

1ani=1nXnbn,(1)
Xi

W tej chwili krąży dużo matematyki, która sprowadza się do kilku twierdzeń, które całkowicie charakteryzują to, co dzieje się na granicy. Jednym z takich twierdzeń jest Feller:

Twierdzenie Niech Jest sekwencją niezależnych zmiennych losowych V n ( x ) jest funkcją rozkładu X, n i n jest sekwencją stałą dodatnią. Aby{Xn;n=1,2,...}Vn(x)Xnan

max1knP(|Xk|εan)0, for every fixed ε>0

i

supx|P(an1k=1nXk<x)Φ(x)|0

jest to konieczne i wystarczające

k=1n|x|εandVk(x)0 for every fixed ε>0,

an2k=1n(|x|<anx2dVk(x)(|x|<anxdVk(x))2)1

i

an1k=1n|x|<anxdVk(x)0.

To twierdzenie daje następnie wyobrażenie o tym, powinno wyglądać n .an

Ogólna teoria w książce jest skonstruowana w taki sposób, że stała normalizacyjna jest w jakikolwiek sposób ograniczona, ale ostateczne twierdzenia, które dają niezbędne i wystarczające warunki, nie pozostawiają miejsca na stałą normalną inną niż .n

mpiktas
źródło
4

s n oznacza odchylenie standardowe próbki dla średniej próbki. s n 2 jest wariancją próby dla średniej próbki i jest równa S n 2 / n. Gdzie S n 2 to oszacowanie próby wariancji populacji. Ponieważ s n = S n / thatn wyjaśnia, jak appearsn pojawia się w pierwszej formule. Zauważ, że w mianowniku byłby σ, gdyby limit byłnn2n2n2nn

N (0,1), ale granicę podano jako N (0, σ 2 ). Ponieważ S n jest spójnym oszacowaniem σ, jest używane w drugim równaniu do pobrania σ poza granicę.2n

Michael R. Chernick
źródło
Co o inne (bardziej podstawowych i ważnych) części pytania: dlaczego , a nie jakaś inna miara dyspersji? sn
whuber
@ whuber To może być przedmiotem dyskusji, ale nie było to częścią pytania. OP chciał po prostu wiedzieć, dlaczego s n i appearn występują we wzorze CLT. Oczywiście istnieje S n, ponieważ jest spójne dla σ iw tej formie CLT σ jest usuwane. nn
Michael R. Chernick,
1
Dla mnie wcale nie jest jasne, że jest obecne, ponieważ jest „spójne dla σ ”. Dlaczego nie miałoby to oznaczać, powiedzmy, że s n powinno być użyte do normalizacji statystyk o ekstremalnej wartości (co nie działałoby)? Czy brakuje mi czegoś prostego i oczywistego? I, aby powtórzyć OP, dlaczego nie użyć snσsn przede wszystkim jest to spójne dlasn ! σ
whuber
Jak twierdzono, twierdzenie ma zbieżność z N (0,1), więc aby osiągnąć, że albo musisz znać σ i użyć go, albo użyć spójnego oszacowania, które działa według twierdzenia Slutsky'ego. Czy to było niejasne?
Michael R. Chernick,
Nie sądzę, żebyś był niejasny; Myślę tylko, że może brakować ważnej kwestii. Wszakże dla wielu rozkładów możemy uzyskać ograniczający rozkład normalny za pomocą IQR zamiast ale wtedy wynik nie jest tak schludny (SD rozkładu ograniczającego zależy od rozkładu, od którego zaczynamy). Po prostu sugeruję, że zasługuje na to, aby zostać odwołanym i wyjaśnionym. Nie będzie to tak oczywiste dla kogoś, kto nie ma intuicji rozwiniętej przez 40 lat standaryzacji wszystkich napotkanych dystrybucji! sn
whuber
2

Intuicyjnie, jeśli dla niektórych σ 2 należy się spodziewać, że Var ( Z n ) jest w przybliżeniu równy σ 2 ; wydaje się to dość rozsądnym oczekiwaniem, choć nie sądzę, aby było to w ogóle konieczne. Powód ZnN(0,σ2)σ2Var(Zn)σ2 w pierwszym wyrażeniu jest takie, że wariancja ˉ X n-μwynosi0jak 1nX¯nμ0 i tak1n pompuje wariancję, tak że wyrażenie ma tylko wariancję równąσ2. W drugim wyrażeniu terminsnjest zdefiniowany jakonσ2sn , natomiast wariancja licznika rośnie jakĎ n i = 1 Var(XI), więc znów mamy że wariancja całego wyrażenia jest stałą (1, w tym przypadku).i=1nVar(Xi)i=1nVar(Xi)1

Zasadniczo wiemy, że dzieje się coś „interesującego” z rozkładem , ale jeśli tego nie zrobimy poprawnie centrum i skalować go nie będzie w stanie go zobaczyć. Słyszałem, że to czasami wymaga dostosowania mikroskopu. Jeśli nie wysadzimy (np.) ˉ X -μoX¯n:=1niXiX¯μ wtedy mamy po prostu ˉ X n-μ0w rozkładzie według słabego prawa; interesujący wynik sam w sobie, ale nie tak pouczający jak CLT. Jeśli napompujemy przez jakikolwiek czynnikan,który jest zdominowany przeznX¯nμ0an , mamy jeszcze dostaćsięn( ˉ X n-| j)0, gdy jakikolwiek czynniknktóry dominujenan(X¯nμ)0an dajesięN( ˉ X n-| j). Okazuje się, żenan(X¯nμ) jest właściwym powiększeniem, aby móc zobaczyć, co się dzieje w tym przypadku (uwaga: cała zbieżność jest tutaj w rozkładzie; istnieje inny poziom powiększenia, który jest interesujący dla prawie pewnej zbieżności, co powoduje powstanie prawa iteracji logarytm).n

chłopak
źródło
4
Bardziej fundamentalnym pytaniem, na które należy najpierw odpowiedzieć, jest to, dlaczego SD służy do pomiaru dyspersji. Dlaczego nie absolutna centralny moment dla innej wartości k ? A może IQR lub którykolwiek z jego krewnych? Po udzieleniu odpowiedzi proste właściwości kowariancji natychmiast dają kthk zależność (jak niedawno wyjaśnił @ Gui11aume.)n
whuber
1
@ whuber Zgadzam się, dlatego przedstawiłem to jako heurystyczne. Nie jestem pewien, czy można to wyjaśnić prostym wyjaśnieniem, choć chętnie je usłyszę. Dla mnie nie jestem pewien, czy mam prostszą, możliwą do wyjaśnienia przyczynę, „że termin kwadratowy jest odpowiednim terminem w rozwinięciu funkcji charakterystycznej Taylora po odjęciu średniej”.
facet