W jaki sposób przekazujesz piękno twierdzenia o limicie centralnym nie-statystyka?

33

Mój ojciec jest entuzjastą matematyki, ale mało interesuje go statystyka. Byłoby fajnie spróbować zilustrować niektóre wspaniałe fragmenty statystyk, a CLT jest głównym kandydatem. Jak przekazałbyś matematyczną urodę i wpływ centralnego twierdzenia o granicy niepistatystom?

Vince
źródło
Jedną szybką myślą jest wprowadzenie zasady dyskusji 68-95-99.7 ( en.wikipedia.org/wiki/68-95-99.7_rule ).
raegtin

Odpowiedzi:

16

To, co najbardziej podobało mi się w CLT, to przypadki, gdy nie ma ono zastosowania - daje mi to nadzieję, że życie jest nieco bardziej interesujące niż sugeruje krzywa Gaussa. Pokaż mu rozkład Cauchy'ego.

użytkownik88
źródło
jaki jest związek między rozkładem Cauchy'ego a CLT lub wypełnieniem CLT?
robin girard
CLT wymaga, aby MGF istniały w sąsiedztwie 0. Rozkład Cauchy'ego nie ma tej właściwości. CLT Win. Cauchy nawet nie spełnia słabszych wymagań silniejszej wersji CLT, gdzie wszystko, co jest wymagane, to ta średnia i wariancja. Rozkład Cauchy'ego pokazuje, że musi istnieć średnia, aby CLT mógł się utrzymać. Nie powoduje to awarii CLT.
Baltimark,
@Baltimark Źle zrozumiałeś mój post - oczywiste jest, że Cachy nie jest objęty CLT z powodu założeń CLT, w przeciwnym razie niemożliwe byłoby udowodnienie CLT. Podałem ten przykład, ponieważ ludzie wierzą, że CLT działa dla wszystkich dystrybucji; prawdopodobnie „porażka” nie jest idealnym słowem, ale wciąż nie sądzę, że jest to powód do odrzucenia. Ok, nawet zmieniłem to na nie dotyczy.
Wolę twoją edycję. Rozkład Cauchy'ego jest zdecydowanie bardzo fajny.
Baltimark
14

Aby w pełni docenić CLT, należy to zobaczyć.

Stąd pojęcie maszyny do fasoli i wiele filmów z youtube dla ilustracji.

Ami
źródło
Myślałem, że pokazuje rozkład dwumianowy; Nie sądzę, że jej asymptotyki mają bezpośredni związek z CLT.
2
maszyna do fasoli autor animacji pakietu ... yihui.name/en/wp-content/uploads/2010/07/07/…
robin girard
1
@mbq spójrz na en.wikipedia.org/wiki/...
robin girard
@robin Pisałem o tym, w czym problem?
1
@ShreevatsaR Chodzi o to, że dobra ilustracja powinna pokazywać „rdzeń” czegoś, a (przynajmniej IMO) „rdzeń” CLT polega na tym, że łączy wiele zmiennych z różnych dziwnych rozkładów w gaussowskie, a nie to, że jest tylko limit rozkładu dwumianowego.
7

Często, gdy matematycy mówią o prawdopodobieństwie, zaczynają od znanego rozkładu prawdopodobieństwa, a następnie mówią o prawdopodobieństwie zdarzeń. Prawdziwa wartość centralnego twierdzenia granicznego polega na tym, że pozwala nam on zastosować rozkład normalny jako przybliżenie w przypadkach, w których nie znamy rozkładu rzeczywistego. Możesz zadać swojemu ojcu standardowe pytanie statystyczne (ale sformułowane jako matematyka), jakie jest prawdopodobieństwo, że średnia próbki będzie większa niż podana wartość, jeśli dane pochodzą z rozkładu ze średnią sigma sd, a następnie sprawdź, czy zakłada dystrybucję (o której wtedy mówisz, że nie wiemy) lub mówi, że musi znać dystrybucję. Następnie możesz pokazać, że w wielu przypadkach możemy przybliżyć odpowiedź za pomocą CLT.

Do porównania matematyki ze statystykami lubię stosować twierdzenie o wartości średniej całki (która mówi, że dla całki od a do b istnieje prostokąt od a do b o tym samym obszarze, a wysokość prostokąta jest średnią z krzywa). Matematyk patrzy na to twierdzenie i mówi „fajnie, mogę użyć całki, aby obliczyć średnią”, podczas gdy statystyka patrzy na to samo twierdzenie i mówi „fajnie, mogę użyć średniej do obliczenia całki”.

Tak naprawdę mam w swoim biurze zszyte draperie ścienne twierdzenia o wartości średniej i CLT (wraz z twierdzeniem Bayesa).

Greg Snow
źródło
Hmmm. Sądzę, że większość matematyków używa MVT do przybliżania całki jako prostokąta.
kardynał
5

Lubię zademonstrować zmienność próbkowania i zasadniczo twierdzenie o limicie centralnym poprzez ćwiczenie „w klasie”. Wszyscy w klasie mówią, że 100 uczniów zapisuje swój wiek na kartce papieru. Wszystkie kawałki papieru są tego samego rozmiaru i złożone w ten sam sposób po obliczeniu średniej. To jest populacja i ja obliczam średni wiek. Następnie każdy uczeń losowo wybiera 10 kawałków papieru, zapisuje wieki i zwraca je do torby. (S) oblicza średnią i podaje torbę do następnego ucznia. W końcu mamy 100 próbek po 10 studentów, z których każdy szacuje średnią liczbę ludności, którą możemy opisać za pomocą histogramu i niektórych statystyk opisowych.

Następnie tym razem powtarzamy demonstrację, używając zestawu 100 „opinii”, które replikują niektóre pytania Tak / Nie z ostatnich sondaży, np. Jeśli jutro zwołane zostaną wybory (Brytyjskiego Generała), czy rozważysz głosowanie na Brytyjską Partię Narodową. Uczniowie próbują 10 z tych opinii.

Na koniec zademonstrowaliśmy zmienność próbkowania, Twierdzenie o granicy centralnej itp. Z danymi ciągłymi i binarnymi.

Graham Cookson
źródło
4

Zabawa poniższym kodem, zmienianie wartości Mi wybieranie rozkładów innych niż mundur może być zabawną ilustracją.

N <- 10000
M <- 5
meanvals <- replicate(N, expr = {mean(runif(M,min=0, max=1))}) 
hist(meanvals, breaks=50, prob=TRUE) 
Eremite
źródło
2

Jeśli używasz Stata, możesz użyć polecenia -clt-, które tworzy wykresy rozkładów próbkowania, patrz

http://www.ats.ucla.edu/stat/stata/ado/teach/clt.htm

Michael Mitchell
źródło
Wygląda na to, że może być bardzo przyjemny, ale właśnie próbowałem zainstalować i uruchomić go w Stacie 11.1 (tj. Najnowszej wersji) i po kliknięciu „Gotowe” w oknie dialogowym wyświetla mi się błąd r (3000), nawet jeśli wpisuję - wersja 6: clt-.
onestop
2

Z mojego doświadczenia wynika, że ​​CLT jest mniej użyteczny niż się wydaje. W środku projektu nigdy nie wiadomo, czy n jest wystarczająco duże, aby przybliżenie było odpowiednie do zadania. A w przypadku testów statystycznych CLT pomaga chronić błąd typu I, ale niewiele robi, aby utrzymać błąd typu II na dystans. Na przykład test t może mieć dowolnie niską moc dla dużych n, gdy rozkład danych jest bardzo wypaczony.

Frank Harrell
źródło