Oczekiwanie na sumę liczb K bez wymiany

9

Biorąc pod uwagę liczb, gdzie wartość każdej liczby jest inna, oznaczona jako , a prawdopodobieństwo wyboru każdej liczby wynosi odpowiednio .nv1,v2,...,vnp1,p2,...,pn

Teraz, jeśli liczby na podstawie podanych prawdopodobieństw, gdzie , jakie jest oczekiwanie sumy tych liczb ? Zauważ, że zaznaczenie nie jest zastępowane, więc liczby nie mogą obejmować zduplikowanych liczb. Rozumiem, że jeśli wybór jest z zastąpieniem, oczekiwanie sumy liczb jest równe , gdzieKKnKKKK×E(V)

E(V)=v1×p1+v2×p2+...+vn×pn.

Ponadto, co z oczekiwaniem wariancji tych liczb ?K

Jestem doktorantem CS, który pracuje nad problemem dużych zbiorów danych i nie mam żadnych statystyk. Oczekuję, że ktoś może dać mi formułę jako odpowiedź. Jeśli jednak odpowiedź jest zbyt skomplikowana, aby ją opisać formułą lub konieczne jest zastosowanie intensywnego obliczenia, przybliżona odpowiedź jest całkowicie akceptowalna.

Możesz założyć, że jest tutaj dość duże, a prawdopodobieństwo może być bardzo różne. W praktyce wartości tych prawdopodobieństw pochodzą z dziennika zapytań, który rejestruje serię zapytań agregacyjnych. Chodzi o to, że częstotliwość każdej liczby uczestniczącej w zapytaniach może być dość wypaczona, tj. Niektóre są rzadko pytane, a niektóre bardzo często. Możesz założyć, że rozkład prawdopodobieństwa jest rozkładem normalnym, rozkładem zipf lub innymi rozsądnymi alternatywami.n

Rozkład wartości jest tylko ciągłym podzbiorem każdego możliwego rozkładu. Innymi słowy, jeśli masz histogram reprezentujący pewien rozkład, wszystkie liczby zaangażowane w ten problem to liczby znajdujące się w jednym segmencie.

Pod względem wartości K można założyć, że jest ona zawsze mniejsza niż liczba często zadawanych elementów.

SciPioneer
źródło
3
Oczekiwanie wariancji sumy będzie różne bez zamiany; będziesz potrzebować skończonego współczynnika korekcji populacji, jeśli nie ma zamiany. (Aby zobaczyć to intuicyjnie, zwróć uwagę, że jeśli K = n wariancja sumy wynosi zero, ponieważ zawsze będzie to ta sama liczba; tak jak K zbliża się n wariancja sumy będzie mniejsza.)
zbicyclist
1
To pytanie może być trudniejsze, niż mogłoby się wydawać. Rozważmy przypadek i . Oczekiwana suma dwóch wartości narysowanych przy zamianie wynosi co jest dwukrotnością oczekiwanej sumy jednej wartości; ale oczekiwana suma dwóch wartości narysowanych bez zamiany to oczywiście z wyjątkiem sytuacji, gdy . n=2(v1,v2)=(0,1)2p2v1+v2=12p2p1=p2=1/2
whuber
1
@zbicyclist Być może nie wyjaśniłem jasno problemu. W moim scenariuszu, jeśli K = N, wówczas wariancja tych liczb K będzie wariancją ogólnej populacji, a nie 0.
SciPioneer
1
(1) Nie wydaje mi się to pytaniem do samodzielnej nauki : wygląda na to, że istnieje prawdziwy problem. (2) Jak duży może być ? Dokładne rozwiązania wyglądają na niewykonalne, chyba że można wymienić wszystkie podzbiory. (3) Jeśli może być znacznie większe niż około , co wyklucza szybkie wyliczanie, co możesz powiedzieć o ? Na przykład, czy mogą się różnić, czy też będą zbliżone do ? Może to pomóc w znalezieniu przybliżonych odpowiedzi. nn20pi1/n
whuber
1
Dzięki za zmiany. Im więcej możesz nam powiedzieć o , , i , tym lepiej. Na przykład, jeśli wówczas wzory do próbkowania z zamianą powinny być dobrym przybliżeniem (ponieważ bardzo niewiele wartości, jeśli w ogóle, byłyby wybrane więcej niż jeden raz). Wierzę najtrudniejsze przypadki, gdzie istnieje szeroki zakres wartości -SO że nie można po prostu zastąpić większość z zer i jeszcze z na znaczną liczbę --and . NKvipiKmax(pi)1pipi>1/KiKN/2
whuber

Odpowiedzi:

2

Prawdopodobnie ma to charakter odpowiedzi, która, choć dokładna, prawdopodobnie nie jest tak przydatna. Horvitz i Thompson (1952) przedstawiają wyniki, które ogólnie obejmują tę sytuację. Wyniki te podano w kategoriach wyrażeń kombinatorycznych, których można się spodziewać.

Aby zachować spójność z ich notacją, a także lepiej odpowiadać powszechnie stosowanej notacji, pozwól mi na nowo zdefiniować niektóre ilości. Niech będzie liczbą elementów w populacji, a będzie wielkością próby.Nn

Niech , , reprezentują elementów populacji, z podanymi wartościami , i prawdopodobieństwami wyboru . Dla danej próbki o rozmiarze , niech obserwowane wartości w próbce będą wynosić .uii=1,...,NNVii=1,...,Np1,...,pNnv1,...,vn

Pożądana jest średnia i wariancja sumy próby

i=1nvi.

Jak wspomniano w komentarzach, prawdopodobieństwo wyboru konkretnej próbki narysowanej w tej kolejności wynosi gdzie początkowe prawdopodobieństwo rysowania jest podane przez , drugie prawdopodobieństwo rysowania jest uwarunkowane usunięciem z populacji i tak dalej. Tak więc każda kolejna narysowana jednostka powoduje nowy rozkład prawdopodobieństwa dla następnej jednostki (stąd wybór różnych liter wskaźnikowych, ponieważ każda reprezentuje inny rozkład).s={uja,ujot,...,ut}

Par(s)=pja1pjot2)ptn,
pja1ujapjapjot2)ujotuja

Istnieją próbki wielkości które zawierają z całej populacji. Zauważ, że bierze to pod uwagępermutacje próbki.

S.(ja)=n!(N.-1n-1)
nujan!

Niech oznacza konkretną próbkę o rozmiarze która obejmuje . Następnie prawdopodobieństwo wybrania elementu jest określone przez gdzie sumowanie dla zestawu rozmiarów z wszystkie możliwe próbki o rozmiarze które zawierają . (Zmieniłem nieco notację z papieru, ponieważ wydawało mi się to mylące).sn(ja)nujauja

P.(uja)=Par(sn(ja)),
S.(ja)sn(ja)nuja

Podobnie zdefiniuj jako liczba próbek zawierających zarówno jak i . Następnie możemy zdefiniować prawdopodobieństwo próbki zawierającej zarówno jako gdzie suma jest większa niż zbiór wielkości wszystkich możliwych próbek o rozmiarze które zawierają i .

S.(jajot)=n!(N.-2)n-2))
ujaujot
P.(ujaujot)=Par(sn(jajot)),
S.(jajot)sn(jajot)nujaujot

Oczekiwana wartość jest następnie obliczana jako

mi(ja=1nvja)=ja=1N.P.(uja)V.ja.

Chociaż wariancja nie została wyraźnie wyprowadzona z pracy, można ją uzyskać z oczekiwań co do momentu i produkty krzyżowe q

mi(ja=1nvjaq)=ja=1N.P.(uja)V.jaq
mi(jajotnvjavjot)=jajotP.(ujaujot)V.jaV.jot.

Innymi słowy, wygląda na to, że należałoby przejść przez wszystkie możliwe podzbiory, aby wykonać te obliczenia. Być może można to jednak zrobić dla mniejszych wartości .n

Horvitz, DG i Thompson, DJ (1952) Uogólnienie próbkowania bez zastąpienia ze skończonego wszechświata. Journal of American Statistics Association 47 (260): 663–685.

jvbraun
źródło