Dlaczego centralne twierdzenie graniczne załamuje się w mojej symulacji?

21

Powiedzmy, że mam następujące liczby:

4,3,5,6,5,3,4,2,5,4,3,6,5

Próbkuję niektóre z nich, powiedzmy 5 z nich, i obliczam sumę 5 próbek. Następnie powtarzam to w kółko, aby uzyskać wiele sum, i wykreślam wartości sum w histogramie, który będzie gaussowski z powodu twierdzenia o granicy centralnej.

Ale kiedy podążają za liczbami, właśnie zastąpiłem 4 dużą liczbą:

4,3,5,6,5,3,10000000,2,5,4,3,6,5

Sumy próbek z 5 próbek nigdy nie stają się histogramem gaussowskim, ale bardziej przypominają podział i stają się dwoma gaussowskimi. Dlaczego?

JimSD
źródło
1
Nie zrobi tego, jeśli zwiększysz ją do ponad n = 30 lub więcej ... tylko moje podejrzenie i bardziej zwięzła wersja / ponowne przedstawienie zaakceptowanej odpowiedzi poniżej.
oemb1905
@JimSD CLT jest wynikiem asymptotycznym (tj. O rozkładzie znormalizowanych średnich próbek lub sum w granicach, gdy wielkość próbki zbliża się do nieskończoności). nie jest . To, na co patrzysz (podejście do normalności w skończonych próbkach), nie jest wyłącznie wynikiem CLT, ale pokrewnym wynikiem. n n=5n
Glen_b
3
@ oemb1905 n = 30 nie jest wystarczający dla rodzaju skosu sugerowanego przez OP. W zależności od tego, jak rzadkie jest to zanieczyszczenie o wartości takiej jak , może zająć n = 60 lub n = 100 lub nawet więcej, zanim normalna wygląda na rozsądne przybliżenie. Jeśli zanieczyszczenie wynosi około 7% (jak w pytaniu), n = 120 nadal jest nieco 107
wypaczone
Pomyśl, że wartości w przedziałach czasowych takich jak (1 100 000, 1 900 000) nigdy nie zostaną osiągnięte. Ale jeśli zarobisz rozsądne kwoty na tych kwotach, zadziała!
David

Odpowiedzi:

18

Przypomnijmy dokładnie, co mówi centralne twierdzenie graniczne.

Jeśli są niezależnymi i identycznie rozmieszczonymi losowymi zmiennymi o (współdzielonej) średniej i odchyleniu standardowym , to zbiega się w rozkładzie do standardowego rozkładu normalnego (*).X1,X2),,XkμσX1+X2)++XkkσkN.(0,1)

Jest to często używane w „nieformalnym” formularzu:

Jeśli są niezależnymi i identycznie rozmieszczonymi losowymi zmiennymi o (współdzielonej) średniej i standardowym odchyleniu , to zbiega „w rozkładzie” do standardowego rozkładu normalnego .X1,X2),,XkμσX1+X2++XkN(kμ,kσ)

Nie ma dobrego sposobu na matematyczną precyzję tej formy CLT, ponieważ zmienia się rozkład dystrybucji „limit”, ale jest to przydatne w praktyce.

Kiedy mamy statyczną listę liczb takich jak

4,3,5,6,5,3,10000000,2,5,4,3,6,5

a my pobieramy próbki losowo, biorąc losową liczbę z tej listy, aby zastosować centralne twierdzenie graniczne, musimy upewnić się, że nasz schemat próbkowania spełnia te dwa warunki niezależności i identycznie rozłożone.

  • Identyczne rozmieszczenie nie stanowi problemu: każdy numer na liście jest równie prawdopodobne, że zostanie wybrany.
  • Niezależny jest bardziej subtelny i zależy od naszego schematu próbkowania. Jeśli pobieramy próbki bez zamiany , naruszamy niezależność. Twierdzenie o limicie centralnym ma zastosowanie tylko wtedy, gdy próbkujemy z zamiennikiem.

Tak więc, jeśli użyjemy zastępczego próbkowania w twoim schemacie, powinniśmy być w stanie zastosować centralne twierdzenie o limicie. Jednocześnie masz rację, jeśli nasza próbka ma rozmiar 5, wówczas zobaczymy bardzo różne zachowania w zależności od tego, czy wybrana zostanie bardzo duża liczba, czy nie zostanie wybrana w naszej próbce.

Więc o co chodzi? Cóż, szybkość zbieżności do rozkładu normalnego jest bardzo zależny od kształtu populacji jesteśmy próbkowania od, w szczególności, jeśli nasza populacja jest bardzo pochylać, oczekujemy, że trwać długo zbiegają się normalne. Tak jest w naszym przykładzie, więc nie należy oczekiwać, że próbka o wielkości 5 jest wystarczająca, aby pokazać normalną strukturę.

Trzy normalne rozkłady

Powyżej powtórzyłem eksperyment (z zastępczym próbkowaniem) dla próbek o rozmiarach 5, 100 i 1000. Widać, że dla bardzo dużych próbek powstaje normalna struktura.

(*) Uwaga: potrzebne są tutaj pewne warunki techniczne, takie jak średnia skończona i wariancja. Można je łatwo zweryfikować, czy są prawdziwe w naszym próbkowaniu z przykładu z listy.

Matthew Drury
źródło
Dziękuję za bardzo szybką i idealną odpowiedź. Pomysł CLT, zamiana, potrzeba większej liczby próbek, gdy dystrybucja danych jest przekrzywiona, ... Jest teraz bardzo jasne. Moim pierwotnym celem pytania jest, tak jak wspomniałeś, przypadek, w którym jedna duża liczba jest uwzględniona bez wymiany, a liczba próbek jest ustalona. Zachowuje się bardzo różnie, dlatego też musimy rozważyć „warunkowy” CLT w przypadku, gdy próbka jest pobierana z dużej liczby, a sprawa nie jest próbkowana. Zastanawiam się, czy są jakieś badania lub wcześniejsze prace nad tym .. Ale i tak dziękuję.
JimSD
nie wiem, czy ma zastosowanie tutaj, ale twierdzenie o konwergencji CLT regulowane przez
skewness
Jestem trochę zdezorientowany definicją CLT @ MatthewDrury. Myślę, że zbiega się do stałej przez LLN, a nie do normalnego rozkładu. Xkk
JTH
1
@ seanv507 absolutny trzeci moment zamiast skośności; oba są ze sobą powiązane, ale zauważ, że dla symetrycznego rozkładu ze skończonym trzecim momentem, z którym związały się Berry-Esseen nie jest |Fn(x)Φ(x)|ρ/σ3
równy
1
@Glen_b Tak, byłem trochę nieformalny (co chyba nie powinno być), ale mogę to naprawić tego popołudnia, ponieważ doprowadziło to do pewnego zamieszania.
Matthew Drury
12

Ogólnie rzecz biorąc, wielkość każdej próbki powinna być większa niż 5 aby przybliżenie CLT było dobre. Ogólna zasada to próbka o rozmiarze 30 lub większym. Ale przy populacji z pierwszego przykładu 5 jest w porządku.

pop <- c(4, 3, 5, 6, 5, 3, 4, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 5
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

wprowadź opis zdjęcia tutaj

W drugim przykładzie, ze względu na kształt rozkładu populacji (po pierwsze, jest on zbyt wypaczony; przeczytaj komentarze faceta i Glen_b poniżej), nawet próbki wielkości 30 nie dadzą ci dobrego przybliżenia rozkładu średnia próbki przy użyciu CLT.

pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 30
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

wprowadź opis zdjęcia tutaj

Ale przy tej drugiej populacji próbki, powiedzmy, wielkości 100 są w porządku.

pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 100
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

wprowadź opis zdjęcia tutaj

Zen
źródło
3
Problemem nie jest wariancja. Jednym ze sposobów uzyskania rygorystycznej kontroli jest zastosowanie stosunku trzeciego momentu centralnego do sześcianu odchylenia standardowego, jak w twierdzeniu Berry'ego-Esseena.
facet
Doskonały. Dodany. Tks.
Zen
1
Dziękujemy za szybką, wizualną i idealną odpowiedź z kodem. Byłem bardzo zaskoczony, jak szybko to było! Nie byłem świadomy odpowiedniej liczby próbkowania. Myślałem o przypadku, w którym liczba próbkowania jest stała.
JimSD
@guy, dziękuję za to. Nie znałem pojęcia „stosunku trzeciego momentu centralnego do odchylenia standardowego wyrażonego w twierdzeniu Berry'ego-Esseena” . Chciałbym tylko zająć się przypadkiem, w którym w dystrybucji znajduje się jedna duża liczba, na przykład wartość odstająca. Przypuszczam, że do tego rodzaju dystrybucji można się odwoływać, jak wspomniałeś. Jeśli znasz jakieś wcześniejsze prace związane z tego rodzaju dystrybucją, daj mi znać, dziękuję.
JimSD
2
ρ=E[|Xμ|3]μ3=E[(Xμ)3]
7

Chciałbym tylko wyjaśnić, używając złożonych funkcji generujących kumulanty , dlaczego wszyscy obwiniają to za przekrzywienie.

μ+σZμσZ01Z12t2iγ16t3+o(t3)γ1Zκ3μ+σZγ1=σ3κ3

nZn

n(12(tn)2iγ16(tn)3)+o(t3)=12t2iγ16nt3+o(t3).
tnnγ12γ1

JG
źródło
-1

Krótka odpowiedź brzmi: nie masz wystarczająco dużej próbki, aby zastosować twierdzenie o limicie centralnym.

feynman
źródło
1
To, że nie może to być prawidłowe wyjaśnienie, wynika z obserwacji, że CLT daje dobre przybliżenie pierwszego zestawu danych w pytaniu, który jest równie mały.
whuber
@whuber: Myślę, że mówisz, że rozkład normalny daje dość dobre przybliżenie dla próbki pięciu z pierwszego zestawu. Ponieważ istnieje tylko skończona liczba wartości dla sum (13 możliwych wartości bez zamiany i 21 możliwych wartości z zamianą), aproksymacja nie poprawia się znacznie przy dużej liczbie próbek pięciu, a wstępne przybliżenie jest bardziej spowodowane początkowy wzór ...
Henry
@ whuber Ponieważ rozkład pierwszego zestawu wygląda na przekrzywiony w lewo, oczekiwałbym, że suma pięciu również będzie przekrzywiona w lewo, w mniej ekstremalny sposób, niż oczekiwałbym, że suma pięciu z drugiego zestawu będzie przekrzywiona w prawo. Aby uzyskać skośność w celu dalszego zmniejszenia, pomyślałem, że potrzebujesz większej wielkości próbki
Henry
1
@Henry Dziękujemy za komentarze. Nie wypowiadałem się na temat tych szczególnych okoliczności, a jedynie na temat logiki tej odpowiedzi, mając nadzieję, że można to wyjaśnić dalej.
whuber