Oczekiwana liczba przypadków, gdy średnia empiryczna przekroczy wartość

11

Biorąc pod uwagę sekwencję losowych zmiennych iid, powiedzmy dla , próbuję ograniczyć oczekiwaną liczbę razy średnią empiryczną będzie przekraczać wartość, , gdy będziemy nadal rysować próbki, czyli: i = 1 , 2 , . . . , n 1Xi[0,1]i=1,2,...,nc0T d e f = n j=1P({ 11ni=1nXic0

T=defj=1nP({1ji=1jXic})

Jeśli założymy, że dla niektórych , możemy użyć nierówności Hoeffdinga, aby dojść doa > 0c=a+E[X]a>0

Tj=1ne2ja2=1e2a2ne2a21

Które wygląda ładnie (może), ale w rzeczywistości jest dość luźne, czy są lepsze sposoby na ograniczenie tej wartości? Spodziewam się, że może istnieć sposób, ponieważ różne zdarzenia (dla każdego ) wyraźnie nie są niezależne, nie znam żadnego sposobu na wykorzystanie tej zależności. Byłoby również miło usunąć ograniczenie, że jest większe niż średnia.cjc

edycja : Ograniczenie powyżej wartości średniej można usunąć, jeśli użyjemy nierówności Markowa w następujący sposób:c

Tj=1n1jE[X]c=E[X]Hnc
Co jest bardziej ogólne, ale znacznie gorsze niż powyższa granica, chociaż jasne jest, że musi się różnić, ilekroć . c E [ X ]TcE[X]
fairidox
źródło
Twoja definicja nie pasuje do twojego opisu. Gdyby usunąć „ ”, byłaby to oczekiwana liczba przekroczeń , ale jak napisano, jest to liniowa kombinacja czasów . Nie jest to oczywiście oczekiwanie, ponieważ prawdopodobieństwa nie wykluczają się wzajemnie. Na przykład, gdy , . j × c c 0 T = n ( n + 1 ) / 2Tj×cc0T=n(n+1)/2
whuber
@ whuber och, racja, dobra uwaga dzięki, naprawiłem to powyżej.
fairidox
Zauważyłem, że zmieniłeś górną granicę. Teraz wydaje się być negatywny ;-).
whuber
Czy „ ” wykładniczej nie powinien być podniesiony do kwadratu? - Ok, upraszcza się z domeną [0,1]j
Alecos Papadopoulos

Odpowiedzi:

1

Jest to podejście raczej ręczne i naprawdę doceniłbym kilka komentarzy na ten temat (i te krytyczne są zwykle najbardziej pomocne). Jeśli dobrze rozumiem, OP oblicza , gdzie każda próbka zawiera obserwację poprzedniej próbki +1 z nowego rv rozkład średniej każdej próbki. Potem możemy pisać Fjx¯jFj

T=defj=1n(1Fj(c))=nj=1nFj(c)

Rozważmy przykładową wielkość , po czym rozkład średniej próbki jest praktycznie normalne, oznaczamy . Potem możemy pisaćGmG^

T=nj=1mFj(c)j=m+1nG^j(c)<nj=m+1nG^j(c)

Rozwiązując otrzymujemy gdzie jest standardową normą cdf, jest standardowym odchyleniem procesu iid, a jest jego średnią. Wkładamy w oprawę i zmieniamy aranżację G J(c)=1-cp(G^j(c)

G^j(c)=1Φ(jσ(μc))
Φσμ

T<m+j=m+1nΦ(jσ(a))

Zauważ, że ta granica zależy również od wariancji procesu. Czy to jest lepsze niż to przedstawione w pytaniu? Będzie to zależeć przede wszystkim od tego, jak „szybko” rozkład średniej próbki stanie się „prawie normalny”. Aby podać przykład liczbowy, załóż, że . Załóżmy również, że zmienne losowe są jednolite w . Następnie i . Rozważ 10% odchylenie od średniej, tj. Ustaw . wtedy: już dla granica, którą proponuję (co ma znaczenie dla ) staje się ściślejsza. Dla granica Hoeffdinga wynosim=30[0,1]σ=112μ=12a=0.05n=34n>30n=10078.5podczas gdy proponowane mnie ograniczenie to . Hoeffding związany jest zbieżny do gdy związany że proponuje Zwiększając rozbieżność pomiędzy dwiema granicami zredukowane, lecz pozostają widoczne: dla odchylenia 20%, The Hoeffding związany jest zbieżny do natomiast związany Proponuję zbiegać się do (tj. suma normalnych plików cdfs w bardzo niewielkim stopniu przyczynia się do ogólnego ograniczenia). Nieco bardziej ogólnie zauważamy, że dla granica Hoeffdinga jest zbieżna z36.2199.538.5aa=0.149.530.5
n

Hb1e2a21
podczas gdy mój związany z
Abm

Ponieważ dla małych wartości (co jest raczej przypadkiem zainteresowania) staje się dużą liczbą, nadal istnieje możliwość, że może przewyższyć ją szczelnością, nawet jeśli próbka jest taka, że ​​rozkład średniej próbki zbiega się powoli do rozkład normalny.aHbAb

Alecos Papadopoulos
źródło
(tj. nie więcej niż zakładany próg wielkości próby, aby uzyskać normalne przybliżenie w rozkładzie średniej próbki) ” o czym tu mówisz?
Glen_b -Reinstate Monica
Nic ważnego. Gdy piszę kilka wierszy powyżej, podstawową zasadą jest to, że rozkład średniej próbki jest „dużo” jak zwykle, że potrzebujemy co najmniej wielkości próbki 30. Tak więc dla próbki wielkości 100 i odchylenia 20% przypadek, moja granica wynosi tj. - innymi słowy część granicy wnosi bardzo niewiele. 30.5m+0.5j=m+1nΦ(jσ(a))
Alecos Papadopoulos,
O ile nie możesz podać okoliczności, w jakich się ono utrzymuje , unikaj nazywania tej zasady ogólną zasadą. Liczba 30 jest całkowicie dowolna (zazwyczaj albo zbyt słaba, albo zdecydowanie zbyt silna), a ta liczba 30 pojawia się również w twoim przypadku jest, jak sądzę, prostym przypadkiem.
Glen_b
1
@Glen_b „30” nawet nie był zbiegiem okoliczności - użyłem go, aby podać numeryczny przykład. Nie mam nic przeciwko temu problemowi, nie lubię „praktycznych zasad” (szczególnie, gdy są wątpliwe). Dokonałem pewnych zmian w mojej odpowiedzi. Dzięki za wkład.
Alecos Papadopoulos,
@Glen_b Dzięki za prawdopodobnie niestacjonarną (tj. Długą) pamięć!
Alecos Papadopoulos