Błąd w normalnym przybliżeniu do jednolitego rozkładu sumy

20

Jedną naiwną metodą aproksymacji rozkładu normalnego jest dodanie razem może zmiennych losowych IID równomiernie rozmieszczonych na , a następnie recenter i przeskalowanie, w oparciu o centralne twierdzenie graniczne. ( Uwaga dodatkowa : Istnieją dokładniejsze metody, takie jak transformacja Boxa-Mullera ). Suma zmiennych losowych IID jest znana jako rozkład sumy jednolitej lub rozkład Irwina-Halla .100[0,1]U(0,1)

Jak duży jest błąd w przybliżeniu jednolitego rozkładu sumy przez rozkład normalny?

Ilekroć pojawia się ten rodzaj pytania w celu przybliżenia sumy zmiennych losowych IID, ludzie (w tym ja) przywołują twierdzenie Berry'ego-Esseena , które jest skuteczną wersją centralnego twierdzenia granicznego, biorąc pod uwagę, że istnieje trzeci moment:

|fan(x)-Φ(x)|doρσ3)n

gdzie jest funkcją rozkładu skumulowanego dla przeskalowanej sumy zmiennych losowych IID, \ rho jest absolutnym trzecim centralnym momentem E | (X-EX) ^ 3 | , \ sigma jest odchyleniem standardowym, a C jest absolutną stałą, którą można przyjąć jako 1, a nawet 1/2 .fannρE|(XEX)3|σC11/2

To jest niezadowalające. Wydaje mi się, że oszacowanie Berry'ego-Esseena jest najbliższe ostrym rozkładom dwumianowym, które są dyskretne, z największym błędem przy 0 dla symetrycznego rozkładu dwumianowego. Największy błąd występuje przy największym skoku. Jednak rozkład jednolitej sumy nie ma skoków.

Testy numeryczne sugerują, że błąd zmniejsza się szybciej niż c/n .

Przy zastosowaniu C=1/2) 1/2, oszacowanie Berry – Esseena wynosi

|Fn(x)Φ(x)|121321123n0.650n

który dla około ,n=10,20,400.2050.145 i , odpowiednio. Rzeczywiste maksymalne różnice dla wydają się wynosić odpowiednio około , i , które są znacznie mniejsze i wydają się spadać jako zamiast .0.103n=10,20,400.002810.001390.000692c/nc/n

Douglas Zare
źródło
7
Jeśli rozszerzysz rozkład sumy w rozwinięciu Edgewortha , okaże się, że równomiernie w x jako n (od rozkład równomierny jest symetryczny), więc c / n brzmi właściwie. Ze względu na o ( nFn(x)=Φ(x)+n1g(x)+o(n1)xnc/no(n1)termin, który nie daje ci jednak
granic
1
Dzięki, wygląda na to, że wyjaśnia również wzorzec dla wielu innych dystrybucji. c/n
Douglas Zare

Odpowiedzi:

17

Niech będą iid U ( - b , b ) zmiennych losowych i rozważą znormalizowaną sumę S n =U1,U2,U(b,b) i związana z tym sup norma δ n = sup x R | F n ( x ) - Φ ( x ) |

Sn=3i=1nUibn,
sup gdzie F n jest rozkładem S n .
δn=supxR|Fn(x)Φ(x)|,
FnSn

Lemat 1 ( Uspienski ): Następujące związana w ładowni. δ n < 1δn

δn<17.5πn+1π(2π)n+12π3nexp(π2n/24).

Dowód . Patrz JV Uspensky (1937), Wprowadzenie do prawdopodobieństwa matematycznego , Nowy Jork: McGraw-Hill, str. 305

Później R. Sherman poprawił to do następujących.

δn<17.5πn(π180+17.5πn)eπ2n/24+1(n+1)π(2π)n+12π3neπ2n/24.

Dowód : patrz R. Sherman, Błąd normalnego przybliżenia do sumy N zmiennych losowych , Biometrika , vol. 58, nr 2, 396–398.

(sinx)/x

kardynał
źródło
2
N=n
@Procrastinator: Good catch.
kardynał
1
2