Biorąc pod uwagę liczb, gdzie wartość każdej liczby jest inna, oznaczona jako , a prawdopodobieństwo wyboru każdej liczby wynosi odpowiednio .
Teraz, jeśli liczby na podstawie podanych prawdopodobieństw, gdzie , jakie jest oczekiwanie sumy tych liczb ? Zauważ, że zaznaczenie nie jest zastępowane, więc liczby nie mogą obejmować zduplikowanych liczb. Rozumiem, że jeśli wybór jest z zastąpieniem, oczekiwanie sumy liczb jest równe , gdzie
Ponadto, co z oczekiwaniem wariancji tych liczb ?
Jestem doktorantem CS, który pracuje nad problemem dużych zbiorów danych i nie mam żadnych statystyk. Oczekuję, że ktoś może dać mi formułę jako odpowiedź. Jeśli jednak odpowiedź jest zbyt skomplikowana, aby ją opisać formułą lub konieczne jest zastosowanie intensywnego obliczenia, przybliżona odpowiedź jest całkowicie akceptowalna.
Możesz założyć, że jest tutaj dość duże, a prawdopodobieństwo może być bardzo różne. W praktyce wartości tych prawdopodobieństw pochodzą z dziennika zapytań, który rejestruje serię zapytań agregacyjnych. Chodzi o to, że częstotliwość każdej liczby uczestniczącej w zapytaniach może być dość wypaczona, tj. Niektóre są rzadko pytane, a niektóre bardzo często. Możesz założyć, że rozkład prawdopodobieństwa jest rozkładem normalnym, rozkładem zipf lub innymi rozsądnymi alternatywami.
Rozkład wartości jest tylko ciągłym podzbiorem każdego możliwego rozkładu. Innymi słowy, jeśli masz histogram reprezentujący pewien rozkład, wszystkie liczby zaangażowane w ten problem to liczby znajdujące się w jednym segmencie.
Pod względem wartości K można założyć, że jest ona zawsze mniejsza niż liczba często zadawanych elementów.
źródło
Odpowiedzi:
Prawdopodobnie ma to charakter odpowiedzi, która, choć dokładna, prawdopodobnie nie jest tak przydatna. Horvitz i Thompson (1952) przedstawiają wyniki, które ogólnie obejmują tę sytuację. Wyniki te podano w kategoriach wyrażeń kombinatorycznych, których można się spodziewać.
Aby zachować spójność z ich notacją, a także lepiej odpowiadać powszechnie stosowanej notacji, pozwól mi na nowo zdefiniować niektóre ilości. Niech będzie liczbą elementów w populacji, a będzie wielkością próby.N. n
Niech , , reprezentują elementów populacji, z podanymi wartościami , i prawdopodobieństwami wyboru . Dla danej próbki o rozmiarze , niech obserwowane wartości w próbce będą wynosić .uja i = 1 , . . . , N N. V.ja i = 1 , . . . , N p1, . . . ,pN. n v1, . . . ,vn
Pożądana jest średnia i wariancja sumy próby
Jak wspomniano w komentarzach, prawdopodobieństwo wyboru konkretnej próbki narysowanej w tej kolejności wynosi gdzie początkowe prawdopodobieństwo rysowania jest podane przez , drugie prawdopodobieństwo rysowania jest uwarunkowane usunięciem z populacji i tak dalej. Tak więc każda kolejna narysowana jednostka powoduje nowy rozkład prawdopodobieństwa dla następnej jednostki (stąd wybór różnych liter wskaźnikowych, ponieważ każda reprezentuje inny rozkład).s = {uja,ujot, . . . ,ut}
Istnieją próbki wielkości które zawierają z całej populacji. Zauważ, że bierze to pod uwagępermutacje próbki.
Niech oznacza konkretną próbkę o rozmiarze która obejmuje . Następnie prawdopodobieństwo wybrania elementu jest określone przez gdzie sumowanie dla zestawu rozmiarów z wszystkie możliwe próbki o rozmiarze które zawierają . (Zmieniłem nieco notację z papieru, ponieważ wydawało mi się to mylące).s( i )n n uja uja
Podobnie zdefiniuj jako liczba próbek zawierających zarówno jak i . Następnie możemy zdefiniować prawdopodobieństwo próbki zawierającej zarówno jako gdzie suma jest większa niż zbiór wielkości wszystkich możliwych próbek o rozmiarze które zawierają i .
Oczekiwana wartość jest następnie obliczana jako
Chociaż wariancja nie została wyraźnie wyprowadzona z pracy, można ją uzyskać z oczekiwań co do momentu i produkty krzyżoweq
Innymi słowy, wygląda na to, że należałoby przejść przez wszystkie możliwe podzbiory, aby wykonać te obliczenia. Być może można to jednak zrobić dla mniejszych wartości .n
Horvitz, DG i Thompson, DJ (1952) Uogólnienie próbkowania bez zastąpienia ze skończonego wszechświata. Journal of American Statistics Association 47 (260): 663–685.
źródło