Oczekiwanie pierwiastka kwadratowego z sumy niezależnych kwadratowych zmiennych losowych

9

Niech będą niezależnymi i identycznie rozmieszczonymi standardowymi jednolitymi zmiennymi losowymi.X1,,XnU(0,1)

Let Yn=inXi2I seek: E[Yn]


Oczekiwanie na jest łatwe:Yn

E[X2]=01y2y=13E[Yn]=E[inXi2]=inE[Xi2]=n3

Teraz część nudna. Aby ubiegać się o LOTUS, potrzebowałbym pdf . Oczywiście pdf sumy dwóch niezależnych zmiennych losowych jest splotem ich plików pdf. Jednak tutaj mamy n zmiennych losowych i myślę, że splot prowadziłby do ... zawiłego wyrażenia (zamierzony straszny kalambur). Czy istnieje mądrzejszy sposób?Ynn

Wolałbym zobaczyć prawidłowe rozwiązanie , ale jeśli jest to niemożliwe lub zbyt skomplikowane, asymptotyczne przybliżenie dużego n może być dopuszczalne. Dzięki nierówności Jensena wiem o tym

E[Yn]=n3E[Yn]

Ale to niewiele mi pomaga, chyba że znajdę również nietrywialną dolną granicę. Zauważ, że CLT nie ma tutaj bezpośredniego zastosowania, ponieważ mamy pierwiastek kwadratowy z sumy niezależnych RV, a nie tylko sumy niezależnych RV. Może mogą istnieć inne twierdzenia graniczne (które ignoruję), które mogą tu być pomocne.

DeltaIV
źródło
3
Zobacz to pytanie, aby uzyskać asymptotyczny wynik: stats.stackexchange.com/questions/241504/…
S. Catterall Przywróć Monikę
4
Otrzymuję na podstawie powyższego połączonego pytania. mi[Yn]n3)-115
S. Catterall przywraca Monikę
2
Nie sądzę, żebym użył żadnego z podejść opisanych w tej odpowiedzi (których jest więcej niż dwa!) :-). Powodem jest to, że możesz skorzystać z prostych, prostych symulacji w celu oszacowania oczekiwań, podczas gdy rozwiązanie analityczne wydaje się nieosiągalne. Bardzo podoba mi się podejście @ S. Catterall (+1 za to rozwiązanie, którego wcześniej nie czytałem). Symulacja pokazuje, że działa dobrze nawet dla małych . n
whuber
3
Symulacja jest warta zrobienia :-). Wykreślić różnicę między symulowaną średnią a przybliżoną formułą względem . To pokaże ci wyraźnie, jak dobrze działa aproksymacja w funkcji . nn
whuber
4
Wyraźnie mi[Y1]=0,5 podczas gdy przybliżenie daje 13)-115=4150,516. W tym wypadku13)-112byłoby poprawne. Ale przybliżenie poprawia się później.
Henry

Odpowiedzi:

11

Jednym z podejść jest najpierw obliczenie funkcji generującej moment (mgf) dla Yn określony przez Yn=U12++Un2 gdzie Ui,i=1,,n jest niezależnymi i identycznie rozmieszczonymi standardowymi jednolitymi zmiennymi losowymi.

Kiedy to mamy, możemy to zobaczyć

EYn
jest ułamkowym momentem Yn zamówienia α=1/2. Następnie możemy wykorzystać wyniki z pracy Noel Cressie i Marinus Borkent: „Funkcja generowania momentu ma swoje chwile”, Journal of Statistics Plan and Inference 13 (1986) 337-344, która daje momenty ułamkowe poprzez ułamkowe różnicowanie funkcji generowania momentu .

Najpierw funkcja generowania momentu U12, które piszemy M1(t).

M1(t)=EetU12=01etx2xdx
i oceniłem to (z pomocą Maple i Wolphram Alpha), aby dać
M1(t)=erf(t)π2t
gdzie i=1jest urojoną jednostką. (Wolphram Alpha daje podobną odpowiedź, ale pod względem całki Dawsona. ) Okazuje się, że w większości potrzebujemyt<0. Teraz łatwo jest znaleźć mgfYn:
Mn(t)=M1(t)n
Następnie wyniki z cytowanego artykułu. Dlaμ>0 definiują μcałka rzędu funkcji f tak jak
Iμf(t)Γ(μ)1t(tz)μ1f(z)dz
Więc dla α>0 i nieintegralne, n dodatnia liczba całkowita oraz 0<λ<1 takie, że α=nλ. Następnie pochodnaf zamówienia α jest zdefiniowany jako
Dαf(t)Γ(λ)1t(tz)λ1dnf(z)dzndz.
Następnie podają (i potwierdzają) następujący wynik dla dodatniej zmiennej losowej X: Załóżmy MX(mgf) jest zdefiniowane. Więc dlaα>0,
DαMX(0)=EXα<
Teraz możemy spróbować zastosować te wyniki do Yn. Zα=1/2 znaleźliśmy
EYn1/2=D1/2Mn(0)=Γ(1/2)10|z|1/2Mn(z)dz
gdzie liczba pierwsza oznacza pochodną. Klon daje następujące rozwiązanie:
0n(erf(z)π2ezz)en(2ln2+2ln(erf(z))ln(z)+ln(π))22π(z)3/2erf(z)dz
Pokażę wykres tego oczekiwania, wykonany w klonie przy użyciu integracji numerycznej, wraz z przybliżonym rozwiązaniem A(n)=n/31/15z jakiegoś komentarza (i omówionego w odpowiedzi przez @Henry). Są niezwykle blisko:

Porównanie dokładne i przybliżone

Jako uzupełnienie wykres błędu procentowego:

Błąd względny (procent) na powyższym wykresie

Powyżej n=20przybliżenie jest bliskie dokładności. Poniżej użytego kodu klonu:

int( exp(t*x)/(2*sqrt(x)), x=0..1 ) assuming t>0;
int( exp(t*x)/(2*sqrt(x)), x=0..1 ) assuming t<0;
M := t -> erf(sqrt(-t))*sqrt(Pi)/(2*sqrt(-t))
Mn := (t,n) -> exp(n*log(M(t)))
A  :=  n -> sqrt(n/3 - 1/15)
Ex :=  n ->   int( diff(Mn(z,n),z)/(sqrt(abs(z))*GAMMA(1/2) ), z=-infinity..0 ,numeric=true)

plot([Ex(n),A(n)],n=1..100,color=[blue,red],legend=[exact,approx],labels=[n,expectation],title="expectation of sum of squared uniforms")
plot([((A(n)-Ex(n))/Ex(n))*100],n=1..100,color=[blue],labels=[n,"% error"],title="Percentage error of approximation")
kjetil b halvorsen
źródło
1
bardzo interesujące. Gdybyś mógł dodać kilka fabuł, byłaby to doskonała odpowiedź. Jednak zauważę tutaj jedną wyraźną zaletę przybliżenia CLT. Przybliżenie wyraźnie to pokazujeE[Yn] rośnie jak n kiedy n. Rozwiązanie Maple nie (lub przynajmniej nie mogę tego rozgryźć).
DeltaIV,
5

Jako komentarz rozszerzony: wydaje się, że jest to jasne E[Yn]=E[iXi2] zaczynać z E[Yn]=12=n3112 kiedy n=1 a potem się zbliża n3115 tak jak n wzrasta, związane z wariancją Yn spadając z 112 w kierunku 115. Moje powiązane pytanie, na które odpowiedział S.Catterall, stanowi uzasadnienie dlan3115 wynik asymptotyczny oparty na każdym Xi2 mając na myśli 13 i wariancja 445, a rozkład jest w przybliżeniu i asymptotycznie normalny.

To pytanie dotyczy efektywnie rozkładów odległości od początku losowych punktów w n-wymiarowy hipersześcian jednostkowy [0,1]n. Jest to podobne do pytania o rozkład odległości między punktami w takim hipersześcianie , więc mogę łatwo dostosować to, co tam zrobiłem, aby pokazać gęstości dla różnychn od 1 do 16za pomocą splotu numerycznego. Dlan=16, sugerowane normalne przybliżenie pokazane na czerwono jest dobrym dopasowaniem i od n=4 widać pojawiającą się krzywą dzwonową.

wprowadź opis zdjęcia tutaj

Dla n=2 i n=3 dostajesz ostry szczyt w trybie 1z czymś, co w obu przypadkach wygląda na tę samą gęstość. Porównaj to z rozkłademiXi, gdzie pojawia się krzywa dzwonowa z n=3 i gdzie wariancja jest proporcjonalna do n

Henz
źródło
2
Niemal stała wariancja prowadzi do prawdopodobnie sprzecznych z intuicją wyników. Na przykład zn=400, Y400 (odległość od początku losowego punktu w 400-wymiarowy hipersześcian) może przyjąć dowolną wartość 0 do 20 ale 94% przypadków będzie pomiędzy 11 i 12 i praktycznie wszystko pomiędzy 10 i 13
Henry
1
w rzeczywistości jest to nieco sprzeczne z intuicją. Z powodu klątwy wymiarowej spodziewałem się, że zdecydowana większość punktów będzie zbliżona do rogów (realizacjey400 św y400=20). Zamiast tego wygląda na to, że zdecydowana większość punktów znajduje się daleko od początku, ale nie aż do narożników. Prawdopodobnie błąd polega na tym, że powinniśmy wziąć pod uwagę odległość od środka hipersześcianu , a nie odległość od początku , która jest po prostu jeden z rogów hipersześcianu.
DeltaIV,
3
@DeltaIV: Jeśli utworzysz stronę hipersześcianu 2 więc [1,1]na mierząc od początku otrzymujesz dokładnie taki sam rozkład, oczekiwanie i wariancję. Zn=400 większość punktów w tym większym hip-sześcianie będzie blisko granicy tego hipersześcianu (typowa odległość rzędu 0.02), ale nie blisko jego rogów (typowa odległość do najbliższego 11 lub 12ponownie)
Henry
1
to ma sens - nie miałem czasu na matematykę, ale intuicyjnie spodziewałem się podobnych wyników U([1,1]). Spodziewałem się, że oczekiwanie (przepraszam za grę słów) zmieni się o stały czynnik, ale jak powiedziałem, nie miałem czasu, aby to sprawdzić.
DeltaIV,