Przykład rozkładu, w którym potrzebna jest duża wielkość próby dla centralnego twierdzenia o granicy

19

Niektóre książki podają, że próbka o rozmiarze 30 lub większym jest konieczna, aby centralne twierdzenie graniczne dawało dobre przybliżenie dla . X¯

Wiem, że to nie wystarczy dla wszystkich dystrybucji.

Chciałbym zobaczyć kilka przykładów rozkładów, w których nawet przy dużej wielkości próbki (być może 100, 1000 lub więcej) rozkład średniej próbki jest nadal dość wypaczony.

Wiem, że widziałem już takie przykłady, ale nie pamiętam gdzie i nie mogę ich znaleźć.

Graphth
źródło
5
Rozważ rozkład gamma z parametrem kształtu . Weź skalę jako 1 (to nie ma znaczenia). Powiedzmy, że uważasz za po prostu „wystarczająco normalne”. Następnie rozkład, dla którego musisz uzyskać 1000 obserwacji, aby być wystarczająco normalnym, ma rozkład . gamma ( α 0 , 1 ), gamma ( α 0 / 1000 , 1 )αGamma(α0,1)Gamma(α0/1000,1)
Glen_b
1
@Glen_b, dlaczego nie uczynić tej oficjalnej odpowiedzi i trochę ją rozwinąć?
gung - Przywróć Monikę
4
Każda wystarczająco zanieczyszczona dystrybucja będzie działać, podobnie jak w przykładzie @ Glen_b. Na przykład , gdy rozkład podstawowy jest mieszaniną Normalnej (0,1) i Normalnej (ogromna wartość, 1), przy czym ta ostatnia ma tylko niewielkie prawdopodobieństwo pojawienia się, wtedy zdarzają się ciekawe rzeczy: (1) przez większość czasu , zanieczyszczenie nie pojawia się i nie ma dowodów na skośność; ale (2) czasami pojawia się zanieczyszczenie, a skośność w próbce jest ogromna. Rozkład średniej próbki będzie mocno przekrzywiony niezależnie od tego, ale ładowanie ( np. ) Zwykle go nie wykrywa.
whuber
1
Przykład Whubera jest pouczający, pokazując, że centralne twierdzenie o granicy może teoretycznie być arbitralnie mylące. W praktycznych eksperymentach przypuszczam, że należy zadać sobie pytanie, czy może wystąpić jakiś ogromny efekt, który występuje bardzo rzadko, i zastosować wynik teoretyczny z niewielką ostrożnością.
David Epstein,

Odpowiedzi:

19

Niektóre książki podać przykładowy rozmiar rozmiarze 30 lub wyższy jest niezbędne do centralnego twierdzenia granicznego dać dobre przybliżenie .X¯

Ta powszechna zasada jest praktycznie całkowicie bezużyteczna. Istnieją rozkłady niestandardowe, dla których n = 2 da się dobrze, a rozkłady niestandardowe, dla których znacznie większe jest niewystarczające - więc bez wyraźnego ograniczenia okoliczności, reguła jest myląca. W każdym razie, nawet gdyby to była prawda, wymagane n będzie się różnić w zależności od tego, co robisz. Często otrzymujesz dobre przybliżenia w pobliżu środka rozkładu przy małym n , ale potrzebujesz znacznie większego n, aby uzyskać przyzwoite przybliżenie w ogonie.nnnn

Edycja: zapoznaj się z odpowiedziami na to pytanie, aby uzyskać wiele, ale pozornie jednomyślnych opinii na ten temat, oraz kilka dobrych linków. Nie będę jednak pracował nad tym, skoro już to wyraźnie rozumiesz.

Chcę zobaczyć przykłady rozkładów, w których nawet przy dużej wielkości próbki (może 100 lub 1000 lub wyższej) rozkład średniej próbki jest nadal dość wypaczony.

Przykłady są stosunkowo łatwe do skonstruowania; jednym prostym sposobem jest znalezienie nieskończenie podzielnego rozkładu, który jest nienormalny, i podzielenie go. Jeśli masz taki, który zbliży się do normy po uśrednieniu lub podsumowaniu, zacznij od granicy „zbliżonej do normalnej” i podziel ją tak, jak chcesz. Na przykład:

Rozważ rozkład gamma z parametrem kształtu . Weź skalę jako 1 (skala nie ma znaczenia). Powiedzmy, że uważasz za po prostu „wystarczająco normalne”. Następnie rozkład, dla którego musisz uzyskać 1000 obserwacji, aby być wystarczająco normalnym, ma rozkład .gamma ( α 0 , 1 ), gamma ( α 0 / 1000 , 1 )αGamma(α0,1)Gamma(α0/1000,1)

Więc jeśli uważasz, że Gamma z jest po prostu „wystarczająco normalna” -α=20

Gamma (20) pdf

Następnie podziel przez 1000, aby uzyskać :α = 0,02α=20α=0,02

Gamma (0,02) pdf

Średnio 1000 z nich będzie miało kształt pierwszego pliku pdf (ale nie jego skali).

Jeśli zamiast tego wybierzesz nieskończenie podzielny rozkład, który nie zbliża się do normy, jak powiedzmy Cauchy, wówczas może nie być wielkości próby, przy której średnie próbki mają w przybliżeniu rozkład normalny (lub, w niektórych przypadkach, mogą nadal zbliżać się do normalności, ale nie masz efektu dla standardowego błędu).σ/n

@ punkt Whubera na temat zanieczyszczonych dystrybucji jest bardzo dobry; warto wypróbować trochę symulacji z tym przypadkiem i zobaczyć, jak zachowuje się wiele takich próbek.

Glen_b - Przywróć Monikę
źródło
12

Oprócz wielu świetnych odpowiedzi tutaj podanych, Rand Wilcox opublikował doskonałe artykuły na ten temat i wykazał, że nasze typowe sprawdzanie adekwatności normalnego przybliżenia jest dość mylące (i nie docenia potrzebnej wielkości próby). Wskazuje doskonale, że średnia może być w przybliżeniu normalna, ale to tylko połowa historii, gdy nie znamy . Gdy jest nieznany, zwykle używamy rozkładu do testów i limitów ufności. Odchylenie próbki może być bardzo, bardzo dalekie od skalowanego a wynikowy stosunek może nie przypominać rozkładu gdyσ t χ 2 t t n = 30 s 2 ˉ Xσσtχ2)ttn=30. Mówiąc najprościej, nienormalność zakłóca działanie bardziej niż zakłóca działanie .s2)X¯

Frank Harrell
źródło
2
s2)
9

Ten artykuł może być pomocny (a przynajmniej interesujący):

http://www.umass.edu/remp/Papers/Smith&Wells_NERA06.pdf

Naukowcy z UMass przeprowadzili badanie podobne do tego, o co pytasz. Przy jakiej wielkości próbki niektóre rozproszone dane mają rozkład normalny z powodu CLT? Najwyraźniej wiele danych zebranych na potrzeby eksperymentów psychologicznych nie jest nigdzie w pobliżu normalnie rozmieszczonych, więc dyscyplina opiera się w dużej mierze na CLT, aby wywnioskować jakiekolwiek statystyki.

α=0,05

Table 2. Percentage of replications that departed normality based on the KS-test. 
 Sample Size 
           5   10   15   20   25  30 
Normal   100   95   70   65   60  35 
Uniform  100  100  100  100  100  95 
Bimodal  100  100  100   75   85  50

Co dziwne, 65 procent normalnie rozłożonych danych zostało odrzuconych przy próbce o wielkości 20, a nawet przy próbce o wielkości 30, 35% wciąż zostało odrzuconych.

Następnie przetestowali kilka silnie wypaczonych rozkładów utworzonych za pomocą metody mocy Fleishmana:

Y=zaX+bX2)+doX3)+reX4

X reprezentuje wartość wyciągniętą z rozkładu normalnego, podczas gdy a, b, c id są stałymi (zwróć uwagę, że a = -c).

Przeprowadzili testy z próbkami o wielkości do 300

Skew  Kurt   A      B      C       D 
1.75  3.75  -0.399  0.930  0.399  -0.036 
1.50  3.75  -0.221  0.866  0.221   0.027 
1.25  3.75  -0.161  0.819  0.161   0.049 
1.00  3.75  -0.119  0.789  0.119   0.062 

Odkryli, że przy najwyższych poziomach pochylenia i kurtki (1,75 i 3,75) przy wielkości próbek 300 nie uzyskano średnich próbek.

Niestety, nie sądzę, że to jest dokładnie to, czego szukasz, ale natknąłem się na to i uznałem to za interesujące, i pomyślałem, że ty też możesz.

Eric Peterson
źródło
4
Co dziwne, 65 procent normalnie rozłożonych danych zostało odrzuconych przy próbce o wielkości 20, a nawet przy próbce o wielkości 30, 35% wciąż zostało odrzuconych. ” - wtedy wygląda na to, że źle wykorzystują test; jako test normalności na całkowicie określonych normalnych danych (do czego służy test), jeśli prawidłowo je wykorzystują, muszą być dokładne .
Glen_b
5
@Glen_b: Istnieje wiele źródeł potencjalnych błędów. Jeśli przeczytasz ten dokument, zauważysz, że to, co jest tutaj wymienione jako „normalne”, jest w rzeczywistości normalnym losowym zmiennym ze średnią 50 i standardowym odchyleniem 10 zaokrąglonym do najbliższej liczby całkowitej . W tym sensie zastosowany test wykorzystuje już źle określony rozkład. Po drugie, nadal wydaje się, że przeprowadzili testy niepoprawnie, ponieważ moje próby replikacji pokazują, że dla próbki średniej z wykorzystaniem 20 takich obserwacji prawdopodobieństwo odrzucenia wynosi około 27%. (cd.)
kardynał
5
(cd.) Po trzecie, niezależnie od powyższego, niektóre programy mogą wykorzystywać rozkład asymptotyczny, a nie rzeczywisty, chociaż przy próbkach o wielkości 10 K nie powinno to mieć większego znaczenia (jeśli więzi nie zostały sztucznie wywołane na danych). Na koniec znajdujemy następujące dość dziwne stwierdzenie na końcu tego dokumentu: Niestety właściwości testu KS w S-PLUS ograniczają pracę. Wszystkie wartości p dla niniejszego badania zostały zebrane ręcznie w wielu powtórzeniach. Potrzebny jest program do obliczenia wartości p i oceny ich na podstawie wybranego poziomu alfa.
kardynał
3
Cześć @Glen_b. Nie sądzę, aby zaokrąglanie zmniejszyło tutaj współczynnik odrzucania, ponieważ uważam, że testowali z prawdziwym standardowym rozkładem normalnym przy użyciu zaokrąglonych danych (co miałem na myśli mówiąc, że test użył źle określonego rozkładu). (Być może zamiast tego zastanawiałeś się nad zastosowaniem testu KS z rozkładem dyskretnym.) Wielkość próby dla testu KS wynosiła 10000, a nie 20; wykonali 20 replikacji dla próbki o wielkości 10000 każda, aby uzyskać tabelę. Przynajmniej tak rozumiałem opis po przejrzeniu dokumentu.
kardynał
3
@ cardinal - oczywiście masz rację, więc być może może to być przyczyną znacznej części odrzuceń przy dużych próbkach. Re: „ Wielkość próby w teście KS wynosiła 10000, a nie 20 ” ... okej, to brzmi coraz dziwniej. Pozostaje zastanawiać się, dlaczego uważają, że którykolwiek z tych warunków ma dużą wartość, zamiast mówić na odwrót.
Glen_b