Błąd przybliżenia przedziału ufności dla średniej, gdy

15

Niech będzie rodziną losowych zmiennych iid przyjmujących wartości w , mających średnią i wariancję . Prosty przedział ufności dla średniej, przy użyciu ilekroć jest znany, podaje P (| \ bar X - \ mu |> \ varepsilon) \ le \ frac {\ sigma ^ 2} {n \ varepsilon ^ 2} \ le \ frac {1} {n \ varepsilon ^ 2} \ qquad (1). [ 0 , 1 ] μ σ 2 σ P ( | ˉ X - μ | > ε ) σ 2{Xi}i=1n[0,1]μσ2σ

P(|X¯μ|>ε)σ2nε21nε2(1).

Ponadto, ponieważ X¯μσ/n jest asymptotycznie rozłożony jako standardowa normalna zmienna losowa, rozkład normalny jest czasem używany do „konstruowania” przybliżonego przedziału ufności.


W testach statystyki odpowiedzi wielokrotnego wyboru musiałem stosować to przybliżenie zamiast (1) za każdym razem, gdy n30 . Zawsze czułem się z tym bardzo niekomfortowo (więcej, niż możesz sobie wyobrazić), ponieważ błąd przybliżenia nie jest określony ilościowo.


  • Dlaczego warto korzystać z normalnego przybliżenia zamiast (1) ?

  • Nigdy więcej nie chcę ślepo stosować zasady n30 . Czy istnieją dobre referencje, które mogą wesprzeć mnie w odmowie i zapewnić odpowiednie alternatywy? ( (1) jest przykładem tego, co uważam za odpowiednią alternatywę.)

Tutaj, chociaż σ i E[|X|3] są nieznane, łatwo je ograniczyć.

Proszę zauważyć, że moje pytanie jest prośbą o referencję, szczególnie dotyczącą przedziałów ufności, i dlatego różni się od pytań, które zostały zasugerowane jako częściowe duplikaty tu i tutaj . Nie ma tam odpowiedzi.

Olivier
źródło
2
Być może będziesz musiał poprawić przybliżenie znalezione w klasycznych odniesieniach i wykorzystać fakt, że są w co, jak zauważyłeś, dostarcza informacji o momentach. Wierzę, że magicznym narzędziem będzie twierdzenie Berry'ego i Esseena! ( 0 , 1 )Xi(0,1)
Yves
1
przy tych granicach wariancja nie może być większa niż 0,25, znacznie lepsza niż 1, prawda?
carlo

Odpowiedzi:

3

Dlaczego warto korzystać z normalnego przybliżenia?

To tak proste, jak powiedzenie, że zawsze lepiej jest używać więcej informacji niż mniej. Równanie (1) wykorzystuje twierdzenie Czebyszewa . Zauważ, że nie wykorzystuje żadnych informacji o kształcie twojej dystrybucji, tj. Działa dla dowolnej dystrybucji z określoną wariancją. Dlatego jeśli użyjesz informacji o kształcie dystrybucji, musisz uzyskać lepsze przybliżenie. Jeśli wiesz, że twoja dystrybucja jest gaussowska, to dzięki tej wiedzy uzyskasz lepsze oszacowanie.

Ponieważ już stosuje się centralne twierdzenie o granicy, dlaczego nie zastosować przybliżenia Gaussa granic? Będą lepsze, w rzeczywistości ściślejsze (lub ostrzejsze), ponieważ te szacunki opierają się na znajomości kształtu, który jest dodatkową informacją.

Zasada kciuka 30 to mit, który korzysta z uprzedzeń potwierdzających . Po prostu jest kopiowany z jednej książki do drugiej. Kiedyś znalazłem odniesienie sugerujące tę zasadę w artykule z lat 50. XX wieku. Jak pamiętam, nie był to żaden solidny dowód. To było jakieś badanie empiryczne. Zasadniczo jedynym powodem, dla którego jest używany, jest to, że działa. Nie widzisz tego często naruszanego.

AKTUALIZACJA Przeczytaj artykuł Zachary R. Smitha i Craiga S. Wellsa „ Twierdzenie o granicy centralnej i wielkość próbki ”. Prezentują badania empiryczne konwergencji z CLT dla różnych rodzajów dystrybucji. Oczywiście magiczna liczba 30 nie działa w wielu przypadkach.

Aksakal
źródło
+1 Za sensowne wyjaśnienie. Ale czy nie istnieje ryzyko wykorzystania informacji, które nie są całkiem właściwe? CLT nie mówi nic na temat dystrybucji za ustaloną n . X¯n
Olivier
prawda, CLT nie mówi nic o rozkładzie próbki skończonej, ale nie ma też żadnych równań asymptotycznych. Jednak niezaprzeczalnie mają one przydatne informacje, dlatego wszędzie stosuje się ograniczenia relacji. Problem z Czebyszewem polega na tym, że jest tak szeroki, że rzadko jest używany poza klasą. Na przykład dla jednego odchylenia standardowego podane prawdopodobieństwo wynosi - informacja mało praktyczna<1/k2=1
Aksakal
Jednak dla przyjmującego wartości 0 lub 1 z jednakowym prawdopodobieństwem twoje zastosowanie Czebyszewa jest ostre. ;) Problem polega na tym, że Czebyszew, zastosowany do średniej próby, nigdy nie pozostanie ostry, gdy n rośnie. Xn
Olivier
Nie wiem o pracy Smitha i Wellsa, próbowałem odtworzyć ją w R i nie mogłem odzyskać swoich wniosków ...
Alex Nelson
9

Problem z wykorzystaniem nierówności Czebyszewa do uzyskania przedziału dla prawdziwej wartości polega na tym, że daje ona jedynie dolną granicę prawdopodobieństwa, które zresztą jest czasem banalne, lub, aby nie być banalne, może dawać bardzo szeroki przedział ufności. Mamy

P(|X¯μ|>ε)=1P(X¯εμX¯+ε)

P(X¯εμX¯+ε)11nε2

Widzimy, że w zależności od wielkości próby, jeśli „zbyt mocno” zmniejszymy , otrzymamy banalną odpowiedź „prawdopodobieństwo jest większe od zera”.ε

Oprócz tego otrzymujemy z tego wniosku wniosek „” prawdopodobieństwo upadku w [ ˉ X ± ε ] jest równe lub większe niż ... ”μ[X¯±ε]

Ale załóżmy, że jesteśmy dobrzy w tym, i oznaczają prawdopodobieństwo minimum, z którymi są wygodne. Więc chcemypmin

11nε2=pminε=1(1pmin)n

Przy małych rozmiarach próbki i wysokim pożądanym minimalnym prawdopodobieństwie może to dawać niezadowalająco szeroki przedział ufności. Np , a n = 100 otrzymamy ε 0,316 , co na przykład dla zmiennej leczonych PO, który jest ograniczony w [ 0 , 1 ] wydaje się być zbyt duży, aby być przydatna.pmin=0.9n=100ε.316[0,1]

Ale to podejście jest prawidłowe i wolne od dystrybucji, więc mogą zdarzyć się przypadki, w których może być przydatne.

Można również sprawdzić nierówność Vysochanskij – Petunin , o której mowa w innej odpowiedzi, która dotyczy ciągłych unimodalnych rozkładów i poprawia nierówność Czebyszewa.

Alecos Papadopoulos
źródło
Nie zgadzam się, że problem z Czebychevem polega na tym, że daje on jedynie dolną granicę prawdopodobieństwa. W otoczeniu bez dystrybucji najlepsza, na jaką możemy liczyć, to dolna granica. Ważne pytania to: czy Chebychev jest ostry? Czy długość CI Czebycheva jest systematycznie zawyżana dla ustalonego poziomu ? Odpowiedziałem na to w moim poście, z określonego punktu widzenia. Jednak wciąż próbuję zrozumieć, czy Czebychev dla próbki średniej zawsze nie będzie ostry, w silniejszym znaczeniu. α
Olivier
Długość CI nie jest niedoszacowana, ponieważ nie istnieje żadna pojedyncza nieznana długość, więc nie jestem pewien, co masz na myśli, używając słowa „przeszacowanie” tutaj. Różne metody zapewniają różne współczynniki CI, które następnie możemy oczywiście próbować ocenić i ocenić.
Alecos Papadopoulos
Przeszacowanie było złym wyborem słów, dziękuję za zwrócenie na to uwagi. Przez „systematycznie zawyżoną długość” miałem na myśli, że metoda uzyskania CI zawsze daje coś większego niż to konieczne.
Olivier
1
@Olivier Mówiąc ogólnie, nierówność Czebyszewa jest znana jako luźna nierówność, dlatego jest wykorzystywana raczej jako narzędzie w wyprowadzeniach teoretycznych i dowodach niż w pracy stosowanej.
Alecos Papadopoulos
2
@Olivier „Ogólnie rzecz biorąc” obejmuje twoje kwalifikacje, powiedziałbym.
Alecos Papadopoulos
7

Krótka odpowiedź brzmi: może pójść dość źle, ale tylko wtedy, gdy jeden lub oba ogony rozkładu próbkowania są naprawdę grube .

Ten kod R generuje milion zestawów 30 zmiennych o rozkładzie gamma i bierze ich średnią; można go użyć, aby zorientować się, jak wygląda rozkład próbkowania średniej. Jeśli normalne przybliżenie działa zgodnie z przeznaczeniem, wyniki powinny być w przybliżeniu normalne ze średnią 1 i wariancją 1/(30 * shape).

f = function(shape){replicate(1E6, mean(rgamma(30, shape, shape)))}

Gdy shapewynosi 1.0, rozkład gamma staje się rozkładem wykładniczym , co jest dość nienormalne. Niemniej jednak części niegaussowskie przeważnie się przeceniają, więc przybliżenie Gaussa nie jest takie złe:

histogram & density plot

Wyraźnie widać pewne uprzedzenia i dobrze byłoby tego uniknąć, jeśli to możliwe. Ale szczerze mówiąc, ten poziom uprzedzeń prawdopodobnie nie będzie największym problemem typowych badań.

To powiedziawszy, może być znacznie gorzej. Za f(0.01)pomocą histogram wygląda następująco:

histogram

Transformacja dziennika 30 próbkowanych punktów danych przed uśrednieniem bardzo pomaga, jednak:

histogram

Zasadniczo rozkłady z długimi ogonami (po jednej lub obu stronach rozkładu) będą wymagały największej liczby próbek, zanim przybliżenie Gaussa zacznie być wiarygodne. Są nawet przypadki patologiczne, w których dosłownie nigdy nie będzie wystarczających danych do przybliżenia Gaussa, ale prawdopodobnie będziesz mieć w tym przypadku poważniejsze problemy (ponieważ rozkład próbkowania nie ma dobrze określonej średniej lub wariancji, aby rozpocząć z).

David J. Harris
źródło
Uważam ten eksperyment za bardzo trafny i interesujący. Nie przyjmuję jednak tej odpowiedzi, ponieważ nie rozwiązuje ona sedna problemu.
Olivier,
1
jaki jest sedno?
David J. Harris
Twoja odpowiedź nie zapewnia solidnych podstaw dla rzetelnej praktyki statystycznej. Podaje tylko przykłady. Zauważ też, że zmienne losowe, które rozważam, są ograniczone, co znacznie zmienia najgorszy możliwy przypadek.
Olivier,
@Glen_b: ta odpowiedź nie jest tak istotna dla twojej poprawionej wersji pytania. Czy powinienem to tutaj zostawić, czy poleciłbyś coś innego?
David J. Harris
3

Problem z przedziałem ufności Czebyszewa

Jak wspomniał Carlo, mamy . Wynika to zVar(X)μ(1-μ). Dlatego przedział ufności dlaμjest określony przez P(| ˉ X -μ|ε)1σ214Var(X)μ(1μ)μ Problem polega na tym, że nierówność jest w pewnym sensie dość luźna, gdynstaje się duże. Poprawę daje granica Hoeffdinga i pokazano poniżej. Możemy jednak również wykazać, jak źle może być, używająctwierdzenia Berry'ego-Esseena, na co zwrócił uwagę Yves. NiechXimają wariancję1

P(|X¯μ|ε)14nε2.
nXi , najgorszy możliwy przypadek. Twierdzenie implikuje, że P(| ˉ X -μ|ε14 gdzieSFjest funkcją przeżycia standardowego rozkładu normalnego. W szczególności, gdyε=16, otrzymujemySF(16)e-58(według Scipy'ego), tak że zasadniczo P(|ˉX-μ|8P(|X¯μ|ε2n)2SF(ε)+8n,SFε=16SF(16)e58 podczas gdy nierówność Czebyszewa oznacza P ( | ˉ X - μ |8
P(|X¯μ|8n)8n+0,()
P(|X¯μ|8n)1256.
()

Porównywanie długości przedziałów ufności

(1α)Z(α,n)C(α,n)σ=12C(α,n)Z(α,n)nn

C(α,n)=κ(α)Z(α,n),κ(α)=(ISF(α2)α)1,
where ISF is the inverse survival function of the standard normal distribution. I plot below the multiplicative constant.

enter image description here

In particular, the 95% level confidence interval obtained using the Chebyshev inequality is about 2.3 times bigger than the same level confidence interval obtained using the normal approximation.


Using Hoeffding's bound

Hoeffding's bound gives

P(|X¯μ|ε)2e2nε2.
Thus an (1α)-level confidence interval for μ is
(X¯ε,X¯+ε),ε=lnα22n,
of length H(α,n)=2ε. I plot below the lengths of the different confidence intervals (Chebyshev inequality: C; normal approximation (σ=1/2): Z; Hoeffding's inequality: H) for α=0.05.

enter image description here

Olivier
źródło
Very interesting! I have though some corrections to suggest you toghether with a big puzzlement: first, you should take out absolute value from the Hoeffding's unequality definition, it's P(X¯με)e2nε2 or P(|X¯μ|ε)2e2nε2; the second correction is less important, α is generally taken to be 0.05 or lower, while 0.95 is addressed as 1α, it's a bit confusing to see them switched in your post.
carlo
Last and more important: I found your result incredible, so I tried to replicate it in R and I got a completely opposite result: normal approximation gives smaller confidence intervals to me! this is the code I used: curve(sqrt(-log(.025)/2/x), to= 100, col= 'red', xlab= 'n', ylab= 'half interval') #Hoeffding ; curve(qnorm(.975, 0, .5/sqrt(x)), to= 100, add= T, col= 'darkgreen') #normal approximation
carlo
0

let's start with the number 30: it's, as anyone will say, a rule of thumb. but how can we find a number that fits better to our data? It's actually mostly a matter of skewness: even the strangest distribution will fast converge to normal if they are simmetric and continuous, skewed data will be much slower. I remember learning that a binomial distribution can be properly approximated to normal when its variance is greater than 9; for this example it's to be considered that discrete distribution also have the problem that they need great numbers to simulate continuity, but think to this: a simmetric binomial distribution will reach that variance with n = 36, if p = 0.1 instead, n must go up to 100 (variabile trasformation, however, would help a lot)!

If you only want to use variance instead, dropping gaussian approximation, consider Vysochanskij–Petunin inequality over Chebichev's, it needs the assumption of unimodal distribution of the mean, but this is a very safe one with any sample size, I'd say, greater than 2.

carlo
źródło
Could you add a reference for " Vysochanskij–Petunin inequality "? Never heard of it!
kjetil b halvorsen
wikipedia docet
carlo
Can you express the rate of convergence in terms of the skewdness? Why is a sample size of, you'd say 2, enough for unimodality? How is the Vysochanskij–Petunin inequality an improvement over Chebychev if you need to double or triple the sample size for it to apply?
Olivier
I made a fast google search and I found out that binomial distribution is actually often used to explain different sample size need for skewed data, but I didn't find, and I guess there is no accepted "rate of convergence in terms of the skewdness".
carlo
Vysochanskij–Petunin inequality is more efficent than Chebychev's, so it doesn't need a greater sample at all, but it has some use constraints: first, you have to have a continuous distribution, than, it has to be unimodal (no local modes are allowed). It may seem strange to drop normality assumption to adopt another one, but if your data is not discrete, sample mean should eliminate local modes even with very small samples. Fact is that mean has much of a bell distribution and, also if it can be skewed or have fat tails, it quickly comes to only have one mode.
carlo