Ile z największych terminów wdodać do połowy całości?

11

Zastanów się gdzie to iid, a CLT jest wstrzymany. Ile z największych warunków stanowi połowę łącznej kwoty? Na przykład 10 + 9 + 8 (10 + 9 + 8 + 1) / 2: 30% haseł osiąga około połowy sumy.i=1N|Xi|X1,,XN

Zdefiniuj
sumbiggest( j;X1XN)sum of the j biggest of |X1||XN|
halfsum(N)the smallest j such that sumbiggest( j )sumbiggest(N)/2.

Czy istnieje ogólny asymptotyczny wynik dla połowy sumy ( )? Proste, intuicyjne wyprowadzenie byłoby fajne.N,μ,σ

(Trochę Monte Carlo sugeruje, że czasami połowa sumy ( ) / 4 lub tak; to znaczy, że największa 1/4 z sumuje się do 1/2 całości. Dostaję 0,24 dla półnormalnego, 0,19 dla wykładniczy, dla = 20, 50, 100.)N X i N N NNN
Xi
NNN

denis
źródło
3
Nie oczekuj uniwersalnego wyniku podobnego do CLT. Na przykład odpowiedź na zmienne jednolite (0,1) będzie bardzo różna od odpowiedzi na zmienne jednolite (1000, 1001)!
whuber
Racja, halfsum będzie oczywiście zależeć od średniej i sd. Ale dlaczego ~ N / 5 dla wykładniczej?
den
2
Asymptotycznie, Denis, wartość odcięcia dla połowy będzie wartością dla której gdzie jest pdf dla; pytanie dotyczy ( to cdf dla ). W przypadku równomiernego rozkładu otrzymujesz odpowiedź @ Dilip; dla wykładniczej . x 0 T f ( t ), d t = 1 / 2 f | X i | N ( 1 - F ( x ) ) F | X i | [ 0 , 1 ] x 0,18682 N N / 5x0xtf(t)dt=1/2f|Xi|N(1F(x))F|Xi|[0,1]x0.186682NN/5
whuber

Odpowiedzi:

2

Nie, nie ma ogólnego wyniku asymptotycznego. Niech będą uporządkowane , gdzie jest największym. x i x [ 1 ]x[1]x[N]xix[1]

Rozważ następujące dwa przykłady:

1) . Najwyraźniej CLT trzyma się. Potrzebujesz tylko obserwacji dla. M = 1 M j = 1 | x [ j ] | 1P(x=0)=1M=1j=1M|x[j]|12N|xi|

2) . Najwyraźniej CLT trzyma się. Potrzebujesz obserwacji dla.M = N / 2 M j = 1 | x [ j ] | 1P(x=1)=1M=N/2j=1M|x[j]|12N|xi|

Na przykład nietrywialny rozkład Bernoulliego:

3) . Po raz kolejny CLT trzyma się. Potrzebujesz obserwacji, aby spełnić twoje warunki. Zmieniając pomiędzy 0 i 1, możesz zbliżyć się do przykładu 1 lub przykładu 2, jak chcesz.P(x=1)=p, P(x=0)=1pppN/2p

łucznik
źródło
4
Rzeczywiście oczywiste jest, że odpowiedź może być w dowolnym miejscu między a , ale nie oznacza to braku ogólnego wyniku. Oznacza to, że powinniśmy rozważyć odpowiedzi, w których ułamek zależy od niektórych właściwości rozkładu podstawowego, takich jak jego średnia i SD. Są one wystarczające, wraz z CLT, do dostarczenia szczegółowych i ilościowych informacji o rozkładzie porównaniu do ich sumy, więc uzasadnione jest oczekiwanie na taki wynik. N / 2 x [ i ]0N/2x[i]
whuber
1

Oto prymitywny argument podający nieco inne oszacowanie dla równomiernie rozmieszczonych zmiennych losowych. Załóżmy, że są ciągłymi zmiennymi losowymi równomiernie rozmieszczonymi na . Wtedy ma średnią wartość . Załóżmy, że przez zaskakujący i całkowicie niewiarygodny zbieg okoliczności suma jest dokładnie równa . Chcemy więc oszacować, ile z największych wartości sumuje się do lub więcej. Teraz histogram próbek ( bardzo dużych) narysowanych z rozkładu jednorodności jest z grubsza płaski od do [ 0 , 1 ] i X i N / 2 N / 2 X N / 4 N N U [Xi[0,1]iXiN/2N/2XN/4NN0 1U[0,1]01, i tak dla każdego , , istnieje próbek rozmieszczonych w przybliżeniu równomiernie między do . Próbki te mają średnią wartość i sumę równą . Suma przekracza dla . Tak więc suma największych próbek przekracza .0 < x < 1 ( 1 - x ) N x 1 ( 1 + x ) / 2 ( 1 - x ) N ( 1 +x0<x<1(1x)Nx1(1+x)/2N / 4 x 1 / (1x)N(1+x)/2)=(1x2)N/2N/4 (1-1/x1/2N/4(11/2)N0.3NN/4

Możesz spróbować to trochę uogólnić. Jeśli , to dla dowolnego chcemy, aby było takie, że gdzie jest normalne ze średnią i wariancją . Tak więc, zależnie od wartości , . Pomnóż przez gęstość i zintegruj (od do ), aby znaleźć średnią liczbę największych próbek, która przekroczy połowę losowej sumy.Y xiXi=YYxY N / 2 N / 12 Y x = (1x2)N/2=Y/2YN/2N/12Y YY=0Y=Nx=1(Y/N)YY=0Y=N

Dilip Sarwate
źródło
Odległość między dwoma punktami ograniczonymi do przedziału nie może być rozkładana wykładniczo, ponieważ odległość musi być mniejsza niż 1, podczas gdy wykładnicza zmienna losowa przyjmuje wartości w ( 0 , ) . Prawdą jest, że jeśli Y 1 , Y 2 , , Y n + 1 są niezależnymi wykładniczymi zmiennymi losowymi, a następnie zależne od , statystyki rzędu(0,1)1(0,)Y1,Y2,,Yn+1Y ( 1 ) , Y ( 2 ) , , Y ( n ) ( 0 , α )Ymax=α Y(1),Y(2),,Y(n)są równomiernie rozmieszczone w . Zobacz na przykład to pytanie i odpowiedź na stronie math.SE. (ciąg dalszy)(0,α)
Dilip Sarwate,
W każdym razie mój argument nie wykorzystuje odległości między uporządkowanymi próbkami od rozkładu jednolitego.
Dilip Sarwate,
Masz rację, źle cię zrozumiałem. Na marginesie pytanie: czy kawałki między jednorodnie losowymi punktami rozkładają się wykładniczo po skalowaniu - odwrotność twojego q + a? [Broken Stick Rule z projektu Wolfram Demonstrations] ( demonstrations.wolfram.com/BrokenStickRule ) na pewno wygląda wykładniczo, czy to musi być łatwe? dowód.
den
Zadaj pytanie poboczne jako osobne pytanie.
Dilip Sarwate,
Zacząłem, a potem zobaczyłem rozkład prawdopodobieństwa długości fragmentów , możesz tam skomentować.
den
0

Załóżmy, że X ma tylko wartości dodatnie, aby pozbyć się wartości bezwzględnej.

Bez dokładnego udowodnienia, myślę, że musisz rozwiązać k

(1FX(k))E(X|X>=k)=12E(X) gdzie F jest funkcją rozkładu skumulowanego dla X

a następnie odpowiedź jest udzielana przez przyjęcie najwyższych wartości .n(1FX(k))

Moja logika jest taka, że ​​asymetrycznie suma wszystkich wartości wyższych niż k powinna być o

n(1FX(k))E(X|X>=k)

i asymetrycznie połowa całkowitej sumy wynosi około

12nE(X) .

Symulacja numeryczna pokazuje, że wynik dotyczy przypadku jednolitego (jednolity w ), gdzie a ja otrzymuję . Nie jestem pewien, czy wynik zawsze się utrzymuje, czy też można go uprościć, ale myślę, że tak naprawdę zależy on od funkcji rozkładu F.F ( k ) = k k = [0,1]F(k)=kk=(12)

Erik
źródło