Niech będzie rodziną losowych zmiennych iid przyjmujących wartości w , mających średnią i wariancję . Prosty przedział ufności dla średniej, przy użyciu ilekroć jest znany, podaje P (| \ bar X - \ mu |> \ varepsilon) \ le \ frac {\ sigma ^ 2} {n \ varepsilon ^ 2} \ le \ frac {1} {n \ varepsilon ^ 2} \ qquad (1). [ 0 , 1 ] μ σ 2 σ P ( | ˉ X - μ | > ε ) ≤ σ 2
Ponadto, ponieważ jest asymptotycznie rozłożony jako standardowa normalna zmienna losowa, rozkład normalny jest czasem używany do „konstruowania” przybliżonego przedziału ufności.
W testach statystyki odpowiedzi wielokrotnego wyboru musiałem stosować to przybliżenie zamiast za każdym razem, gdy . Zawsze czułem się z tym bardzo niekomfortowo (więcej, niż możesz sobie wyobrazić), ponieważ błąd przybliżenia nie jest określony ilościowo.
Dlaczego warto korzystać z normalnego przybliżenia zamiast ?
Nigdy więcej nie chcę ślepo stosować zasady . Czy istnieją dobre referencje, które mogą wesprzeć mnie w odmowie i zapewnić odpowiednie alternatywy? ( jest przykładem tego, co uważam za odpowiednią alternatywę.)
Tutaj, chociaż i są nieznane, łatwo je ograniczyć.
Proszę zauważyć, że moje pytanie jest prośbą o referencję, szczególnie dotyczącą przedziałów ufności, i dlatego różni się od pytań, które zostały zasugerowane jako częściowe duplikaty tu i tutaj . Nie ma tam odpowiedzi.
Odpowiedzi:
Dlaczego warto korzystać z normalnego przybliżenia?
To tak proste, jak powiedzenie, że zawsze lepiej jest używać więcej informacji niż mniej. Równanie (1) wykorzystuje twierdzenie Czebyszewa . Zauważ, że nie wykorzystuje żadnych informacji o kształcie twojej dystrybucji, tj. Działa dla dowolnej dystrybucji z określoną wariancją. Dlatego jeśli użyjesz informacji o kształcie dystrybucji, musisz uzyskać lepsze przybliżenie. Jeśli wiesz, że twoja dystrybucja jest gaussowska, to dzięki tej wiedzy uzyskasz lepsze oszacowanie.
Ponieważ już stosuje się centralne twierdzenie o granicy, dlaczego nie zastosować przybliżenia Gaussa granic? Będą lepsze, w rzeczywistości ściślejsze (lub ostrzejsze), ponieważ te szacunki opierają się na znajomości kształtu, który jest dodatkową informacją.
Zasada kciuka 30 to mit, który korzysta z uprzedzeń potwierdzających . Po prostu jest kopiowany z jednej książki do drugiej. Kiedyś znalazłem odniesienie sugerujące tę zasadę w artykule z lat 50. XX wieku. Jak pamiętam, nie był to żaden solidny dowód. To było jakieś badanie empiryczne. Zasadniczo jedynym powodem, dla którego jest używany, jest to, że działa. Nie widzisz tego często naruszanego.
AKTUALIZACJA Przeczytaj artykuł Zachary R. Smitha i Craiga S. Wellsa „ Twierdzenie o granicy centralnej i wielkość próbki ”. Prezentują badania empiryczne konwergencji z CLT dla różnych rodzajów dystrybucji. Oczywiście magiczna liczba 30 nie działa w wielu przypadkach.
źródło
Problem z wykorzystaniem nierówności Czebyszewa do uzyskania przedziału dla prawdziwej wartości polega na tym, że daje ona jedynie dolną granicę prawdopodobieństwa, które zresztą jest czasem banalne, lub, aby nie być banalne, może dawać bardzo szeroki przedział ufności. Mamy
Widzimy, że w zależności od wielkości próby, jeśli „zbyt mocno” zmniejszymy , otrzymamy banalną odpowiedź „prawdopodobieństwo jest większe od zera”.ε
Oprócz tego otrzymujemy z tego wniosku wniosek „” prawdopodobieństwo upadku w [ ˉ X ± ε ] jest równe lub większe niż ... ”μ [X¯±ε]
Ale załóżmy, że jesteśmy dobrzy w tym, i oznaczają prawdopodobieństwo minimum, z którymi są wygodne. Więc chcemypmin
Przy małych rozmiarach próbki i wysokim pożądanym minimalnym prawdopodobieństwie może to dawać niezadowalająco szeroki przedział ufności. Np , a n = 100 otrzymamy ε ≈ 0,316 , co na przykład dla zmiennej leczonych PO, który jest ograniczony w [ 0 , 1 ] wydaje się być zbyt duży, aby być przydatna.pmin=0.9 n=100 ε≈.316 [0,1]
Ale to podejście jest prawidłowe i wolne od dystrybucji, więc mogą zdarzyć się przypadki, w których może być przydatne.
Można również sprawdzić nierówność Vysochanskij – Petunin , o której mowa w innej odpowiedzi, która dotyczy ciągłych unimodalnych rozkładów i poprawia nierówność Czebyszewa.
źródło
Krótka odpowiedź brzmi: może pójść dość źle, ale tylko wtedy, gdy jeden lub oba ogony rozkładu próbkowania są naprawdę grube .
Ten kod R generuje milion zestawów 30 zmiennych o rozkładzie gamma i bierze ich średnią; można go użyć, aby zorientować się, jak wygląda rozkład próbkowania średniej. Jeśli normalne przybliżenie działa zgodnie z przeznaczeniem, wyniki powinny być w przybliżeniu normalne ze średnią 1 i wariancją
1/(30 * shape)
.f = function(shape){replicate(1E6, mean(rgamma(30, shape, shape)))}
Gdy
shape
wynosi 1.0, rozkład gamma staje się rozkładem wykładniczym , co jest dość nienormalne. Niemniej jednak części niegaussowskie przeważnie się przeceniają, więc przybliżenie Gaussa nie jest takie złe:Wyraźnie widać pewne uprzedzenia i dobrze byłoby tego uniknąć, jeśli to możliwe. Ale szczerze mówiąc, ten poziom uprzedzeń prawdopodobnie nie będzie największym problemem typowych badań.
To powiedziawszy, może być znacznie gorzej. Za
f(0.01)
pomocą histogram wygląda następująco:Transformacja dziennika 30 próbkowanych punktów danych przed uśrednieniem bardzo pomaga, jednak:
Zasadniczo rozkłady z długimi ogonami (po jednej lub obu stronach rozkładu) będą wymagały największej liczby próbek, zanim przybliżenie Gaussa zacznie być wiarygodne. Są nawet przypadki patologiczne, w których dosłownie nigdy nie będzie wystarczających danych do przybliżenia Gaussa, ale prawdopodobnie będziesz mieć w tym przypadku poważniejsze problemy (ponieważ rozkład próbkowania nie ma dobrze określonej średniej lub wariancji, aby rozpocząć z).
źródło
Problem z przedziałem ufności Czebyszewa
Jak wspomniał Carlo, mamy . Wynika to zVar(X)≤μ(1-μ). Dlatego przedział ufności dlaμjest określony przez P(| ˉ X -μ|≥ε)≤1σ2≤14 Var(X)≤μ(1−μ) μ
Problem polega na tym, że nierówność jest w pewnym sensie dość luźna, gdynstaje się duże. Poprawę daje granica Hoeffdinga i pokazano poniżej. Możemy jednak również wykazać, jak źle może być, używająctwierdzenia Berry'ego-Esseena, na co zwrócił uwagę Yves. NiechXimają wariancję1
Porównywanie długości przedziałów ufności
In particular, the95% level confidence interval obtained using the Chebyshev inequality is about 2.3 times bigger than the same level confidence interval obtained using the normal approximation.
Using Hoeffding's bound
Hoeffding's bound gives
źródło
curve(sqrt(-log(.025)/2/x), to= 100, col= 'red', xlab= 'n', ylab= 'half interval') #Hoeffding ; curve(qnorm(.975, 0, .5/sqrt(x)), to= 100, add= T, col= 'darkgreen') #normal approximation
let's start with the number 30: it's, as anyone will say, a rule of thumb. but how can we find a number that fits better to our data? It's actually mostly a matter of skewness: even the strangest distribution will fast converge to normal if they are simmetric and continuous, skewed data will be much slower. I remember learning that a binomial distribution can be properly approximated to normal when its variance is greater than 9; for this example it's to be considered that discrete distribution also have the problem that they need great numbers to simulate continuity, but think to this: a simmetric binomial distribution will reach that variance with n = 36, if p = 0.1 instead, n must go up to 100 (variabile trasformation, however, would help a lot)!
If you only want to use variance instead, dropping gaussian approximation, consider Vysochanskij–Petunin inequality over Chebichev's, it needs the assumption of unimodal distribution of the mean, but this is a very safe one with any sample size, I'd say, greater than 2.
źródło