Powiedzmy, że mam następujące liczby:
4,3,5,6,5,3,4,2,5,4,3,6,5
Próbkuję niektóre z nich, powiedzmy 5 z nich, i obliczam sumę 5 próbek. Następnie powtarzam to w kółko, aby uzyskać wiele sum, i wykreślam wartości sum w histogramie, który będzie gaussowski z powodu twierdzenia o granicy centralnej.
Ale kiedy podążają za liczbami, właśnie zastąpiłem 4 dużą liczbą:
4,3,5,6,5,3,10000000,2,5,4,3,6,5
Sumy próbek z 5 próbek nigdy nie stają się histogramem gaussowskim, ale bardziej przypominają podział i stają się dwoma gaussowskimi. Dlaczego?
central-limit-theorem
JimSD
źródło
źródło
Odpowiedzi:
Przypomnijmy dokładnie, co mówi centralne twierdzenie graniczne.
Jest to często używane w „nieformalnym” formularzu:
Nie ma dobrego sposobu na matematyczną precyzję tej formy CLT, ponieważ zmienia się rozkład dystrybucji „limit”, ale jest to przydatne w praktyce.
Kiedy mamy statyczną listę liczb takich jak
a my pobieramy próbki losowo, biorąc losową liczbę z tej listy, aby zastosować centralne twierdzenie graniczne, musimy upewnić się, że nasz schemat próbkowania spełnia te dwa warunki niezależności i identycznie rozłożone.
Tak więc, jeśli użyjemy zastępczego próbkowania w twoim schemacie, powinniśmy być w stanie zastosować centralne twierdzenie o limicie. Jednocześnie masz rację, jeśli nasza próbka ma rozmiar 5, wówczas zobaczymy bardzo różne zachowania w zależności od tego, czy wybrana zostanie bardzo duża liczba, czy nie zostanie wybrana w naszej próbce.
Więc o co chodzi? Cóż, szybkość zbieżności do rozkładu normalnego jest bardzo zależny od kształtu populacji jesteśmy próbkowania od, w szczególności, jeśli nasza populacja jest bardzo pochylać, oczekujemy, że trwać długo zbiegają się normalne. Tak jest w naszym przykładzie, więc nie należy oczekiwać, że próbka o wielkości 5 jest wystarczająca, aby pokazać normalną strukturę.
Powyżej powtórzyłem eksperyment (z zastępczym próbkowaniem) dla próbek o rozmiarach 5, 100 i 1000. Widać, że dla bardzo dużych próbek powstaje normalna struktura.
(*) Uwaga: potrzebne są tutaj pewne warunki techniczne, takie jak średnia skończona i wariancja. Można je łatwo zweryfikować, czy są prawdziwe w naszym próbkowaniu z przykładu z listy.
źródło
Ogólnie rzecz biorąc, wielkość każdej próbki powinna być większa niż5 aby przybliżenie CLT było dobre. Ogólna zasada to próbka o rozmiarze 30 lub większym. Ale przy populacji z pierwszego przykładu 5 jest w porządku.
W drugim przykładzie, ze względu na kształt rozkładu populacji (po pierwsze, jest on zbyt wypaczony; przeczytaj komentarze faceta i Glen_b poniżej), nawet próbki wielkości30 nie dadzą ci dobrego przybliżenia rozkładu średnia próbki przy użyciu CLT.
Ale przy tej drugiej populacji próbki, powiedzmy, wielkości100 są w porządku.
źródło
Chciałbym tylko wyjaśnić, używając złożonych funkcji generujących kumulanty , dlaczego wszyscy obwiniają to za przekrzywienie.
źródło
Krótka odpowiedź brzmi: nie masz wystarczająco dużej próbki, aby zastosować twierdzenie o limicie centralnym.
źródło