Niektóre książki podają, że próbka o rozmiarze 30 lub większym jest konieczna, aby centralne twierdzenie graniczne dawało dobre przybliżenie dla .
Wiem, że to nie wystarczy dla wszystkich dystrybucji.
Chciałbym zobaczyć kilka przykładów rozkładów, w których nawet przy dużej wielkości próbki (być może 100, 1000 lub więcej) rozkład średniej próbki jest nadal dość wypaczony.
Wiem, że widziałem już takie przykłady, ale nie pamiętam gdzie i nie mogę ich znaleźć.
Odpowiedzi:
Ta powszechna zasada jest praktycznie całkowicie bezużyteczna. Istnieją rozkłady niestandardowe, dla których n = 2 da się dobrze, a rozkłady niestandardowe, dla których znacznie większe jest niewystarczające - więc bez wyraźnego ograniczenia okoliczności, reguła jest myląca. W każdym razie, nawet gdyby to była prawda, wymagane n będzie się różnić w zależności od tego, co robisz. Często otrzymujesz dobre przybliżenia w pobliżu środka rozkładu przy małym n , ale potrzebujesz znacznie większego n, aby uzyskać przyzwoite przybliżenie w ogonie.n n n n
Edycja: zapoznaj się z odpowiedziami na to pytanie, aby uzyskać wiele, ale pozornie jednomyślnych opinii na ten temat, oraz kilka dobrych linków. Nie będę jednak pracował nad tym, skoro już to wyraźnie rozumiesz.
Przykłady są stosunkowo łatwe do skonstruowania; jednym prostym sposobem jest znalezienie nieskończenie podzielnego rozkładu, który jest nienormalny, i podzielenie go. Jeśli masz taki, który zbliży się do normy po uśrednieniu lub podsumowaniu, zacznij od granicy „zbliżonej do normalnej” i podziel ją tak, jak chcesz. Na przykład:
Rozważ rozkład gamma z parametrem kształtu . Weź skalę jako 1 (skala nie ma znaczenia). Powiedzmy, że uważasz za po prostu „wystarczająco normalne”. Następnie rozkład, dla którego musisz uzyskać 1000 obserwacji, aby być wystarczająco normalnym, ma rozkład .gamma ( α 0 , 1 ), gamma ( α 0 / 1000 , 1 )α Gamma ( α0, 1 ) Gamma ( α0/ 1000,1)
Więc jeśli uważasz, że Gamma z jest po prostu „wystarczająco normalna” -α = 20
Następnie podziel przez 1000, aby uzyskać :α = 0,02α = 20 α = 0,02
Średnio 1000 z nich będzie miało kształt pierwszego pliku pdf (ale nie jego skali).
Jeśli zamiast tego wybierzesz nieskończenie podzielny rozkład, który nie zbliża się do normy, jak powiedzmy Cauchy, wówczas może nie być wielkości próby, przy której średnie próbki mają w przybliżeniu rozkład normalny (lub, w niektórych przypadkach, mogą nadal zbliżać się do normalności, ale nie masz efektu dla standardowego błędu).σ/ n--√
@ punkt Whubera na temat zanieczyszczonych dystrybucji jest bardzo dobry; warto wypróbować trochę symulacji z tym przypadkiem i zobaczyć, jak zachowuje się wiele takich próbek.
źródło
Oprócz wielu świetnych odpowiedzi tutaj podanych, Rand Wilcox opublikował doskonałe artykuły na ten temat i wykazał, że nasze typowe sprawdzanie adekwatności normalnego przybliżenia jest dość mylące (i nie docenia potrzebnej wielkości próby). Wskazuje doskonale, że średnia może być w przybliżeniu normalna, ale to tylko połowa historii, gdy nie znamy . Gdy jest nieznany, zwykle używamy rozkładu do testów i limitów ufności. Odchylenie próbki może być bardzo, bardzo dalekie od skalowanego a wynikowy stosunek może nie przypominać rozkładu gdyσ t χ 2 t t n = 30 s 2 ˉ Xσ σ t χ2) t t n = 30 . Mówiąc najprościej, nienormalność zakłóca działanie bardziej niż zakłóca działanie .s2) X¯
źródło
Ten artykuł może być pomocny (a przynajmniej interesujący):
http://www.umass.edu/remp/Papers/Smith&Wells_NERA06.pdf
Naukowcy z UMass przeprowadzili badanie podobne do tego, o co pytasz. Przy jakiej wielkości próbki niektóre rozproszone dane mają rozkład normalny z powodu CLT? Najwyraźniej wiele danych zebranych na potrzeby eksperymentów psychologicznych nie jest nigdzie w pobliżu normalnie rozmieszczonych, więc dyscyplina opiera się w dużej mierze na CLT, aby wywnioskować jakiekolwiek statystyki.
Co dziwne, 65 procent normalnie rozłożonych danych zostało odrzuconych przy próbce o wielkości 20, a nawet przy próbce o wielkości 30, 35% wciąż zostało odrzuconych.
Następnie przetestowali kilka silnie wypaczonych rozkładów utworzonych za pomocą metody mocy Fleishmana:
X reprezentuje wartość wyciągniętą z rozkładu normalnego, podczas gdy a, b, c id są stałymi (zwróć uwagę, że a = -c).
Przeprowadzili testy z próbkami o wielkości do 300
Odkryli, że przy najwyższych poziomach pochylenia i kurtki (1,75 i 3,75) przy wielkości próbek 300 nie uzyskano średnich próbek.
Niestety, nie sądzę, że to jest dokładnie to, czego szukasz, ale natknąłem się na to i uznałem to za interesujące, i pomyślałem, że ty też możesz.
źródło