Zawsze uczono mnie, że CLT działa, gdy powtarzasz próbkowanie, a każda próbka jest wystarczająco duża. Wyobraź sobie na przykład, że mam kraj 1 000 000 obywateli. Rozumiem, że CLT jest taki, że nawet jeśli rozkład ich wysokości nie był normalny, gdybym pobrał 1000 próbek 50 osób (tj. Przeprowadził 1000 ankiet po 50 obywateli każda), a następnie obliczył ich średnią wysokość dla każdej próbki, rozkład tej próbki środki byłyby normalne.
Jednak nigdy nie widziałem rzeczywistego przypadku, w którym badacze pobierali powtarzające się próbki. Zamiast tego pobierają jedną dużą próbę (tj. Badają 50 000 obywateli na temat ich wzrostu) i na tej podstawie pracują.
Dlaczego książki statystyczne uczą powtarzającego się pobierania próbek, a w prawdziwym świecie badacze przeprowadzają tylko jedną próbkę?
Edycja: Prawdziwym przypadkiem, o którym myślę, jest tworzenie statystyk na zbiorze danych 50 000 użytkowników Twittera. Ten zestaw danych oczywiście nie jest powtarzanymi próbkami, to tylko jedna duża próbka 50 000.
Odpowiedzi:
CLT (przynajmniej w niektórych jego różnych formach) mówi, że do granicy, gdy rozkład pojedynczej znormalizowanej średniej próbki ( ) zbiega się do rozkładu normalnego (pod pewnymi warunkami).n → ∞ X¯- μσ/ n√
CLT nie mówi nam, co dzieje się przy lub .n = 50 n = 50 , 000
Ale próbując zmotywować CLT, zwłaszcza gdy nie ma dowodu na to, że CLT nie jest oferowany, niektórzy polegają na rozkładzie próbkowania dla próbek skończonych i pokazują, że w miarę pobierania większych próbek rozkład próbek zbliża się do normalna.X¯
Ściśle mówiąc, nie jest to demonstracja CLT, jest ona bliższa demonstracji twierdzenia Berry'ego-Esseena, ponieważ pokazuje coś o tempie, w jakim pojawia się podejście do normalności - ale to z kolei doprowadziłoby nas do CLT, więc służy wystarczająco dobrze jako motywacja (i w rzeczywistości często coś takiego jak Berry-Esseen i tak zbliża się do tego, co ludzie faktycznie chcą użyć w skończonych próbkach, tak że motywacja może w pewnym sensie być bardziej przydatna w praktyce niż samo centralne twierdzenie graniczne) .
Cóż, nie, byłyby one nienormalne, ale w praktyce byłyby bardzo zbliżone do normalnych (wysokości są nieco pochylone, ale niezbyt pochylone).
[Zauważ ponownie, że CLT naprawdę nie mówi nam nic o zachowaniu średnich próbek dla ; o to mi chodziło w mojej wcześniejszej dyskusji na temat Berry-Esseen, która zajmuje się tym, jak daleko od normalnego cdf funkcja dystrybucji standardowych środków może być dla próbek skończonych]n = 50
W przypadku wielu dystrybucji średnia przykładowa 50 000 pozycji miałaby bardzo zbliżoną do normalnej dystrybucji - ale nie jest to gwarantowane, nawet przy n = 50 000, że będziesz miał bardzo zbliżoną do normalnej dystrybucji (jeśli rozkład poszczególnych pozycji jest wystarczający na przykład przekrzywiony, wówczas rozkład średnich próbek może być nadal wystarczająco przekrzywiony, aby niemożliwe było utrzymanie normalnego przybliżenia).
(Twierdzenie Berry'ego-Esseena doprowadziłoby nas do przewidywania, że dokładnie ten problem może się pojawić - i to wyraźnie. Tak. Łatwo jest podać przykłady, których dotyczy CLT, ale dla których n = 50 000 nie jest wystarczająco dużą próbką dla znormalizowana próbka oznacza, że jest zbliżona do normy.)
źródło