Oczekiwana liczba wyraźnych kolorów podczas rysowania bez zamiany

15

Rozważ urnę zawierającą kulek o różnych kolorach, przy czym jest proporcją kulek koloru wśród kulek ( ). Rysuję kulek z urny bez zamiany i patrzę na liczbę różnych kolorów wśród narysowanych piłek. Jakie jest oczekiwanie \ gamma w funkcji n / N , w zależności od odpowiednich właściwości rozkładu \ mathbf {p} ?P p i i N i p i = 1 n NNPpiiNipi=1nNγ n / N pγγn/Np

Aby dać więcej wglądu: jeśli N=P i pi=1/P dla wszystkich i , zawsze będę widzieć dokładnie n kolorów, czyli γ=P(n/N) . W przeciwnym razie można wykazać, że oczekiwanie γ wynosi >P(n/N) . Dla stałych P i N wydaje się, że współczynnik pomnożenia n/N byłby maksymalny, gdy p jest jednolity; może oczekiwana liczba różnych kolorów będzie ograniczona w funkcji n/N i np. entropia p ?

Wydaje się, że jest to związane z problemem kolektora kuponów, z tym wyjątkiem, że próbkowanie odbywa się bez zamiany, a rozkład kuponów nie jest jednolity.

a3nm
źródło
1
Myślę, że ten problem można określić jako: jaka jest oczekiwana liczba niezerowych wpisów w próbce z wielowymiarowego rozkładu hipergeometrycznego ?
Kodiolog,

Odpowiedzi:

2

Załóżmy, że masz kolorów gdzie . Niech oznaczają liczbę kul tak . Niech i pozwolić zapisywać zestaw, na który składa się z podzbiorów elementem . Niech oznacza liczbę sposobów, w których możemy wybrać elementów z powyższego zestawu, tak że liczba różnych kolorów w wybranym zestawie wynosi . Dla wzór jest prosty:k N b i i b i = N B = { b 1 , , b k } E i ( B ) i B Q n , c n c c = 1kkNbiibi=NB={b1,,bk}Ei(B)iBQn,cncc=1

Qn,1=EE1(B)(eEen)

Dla możemy policzyć zestawy kulek o rozmiarze które mają co najwyżej 2 kolory minus liczba zestawów, które mają dokładnie kolor:n 1c=2n1

Qn,2=EE2(B)(eEen)(k11)Qn,1

kc1c2kc1c2k ( k-c1(k11) to liczba sposobów dodania koloru do ustalonego koloru, dzięki czemu będziesz mieć 2 kolory, jeśli w sumie masz kolorów. Ogólna formuła jest taka, że ​​jeśli masz stałe kolory i chcesz z nich zrobić kolory, mając jednocześnie kolorów ( ) to . Teraz mamy wszystko, aby wyprowadzić ogólną formułę dla :kc1c2kc1c2kQn,c(kc1c2c1)Qn,c

Qn,c=EEc(B)(eEen)i=1c1(kici)Qn,i

Prawdopodobieństwo, że będziesz mieć dokładnie kolorów, jeśli narysujesz kulek, wynosi:ncn

Pn,c=Qn,c/(Nn)

Zauważ też, że jeśli .y>x(xy)=0y>x

Prawdopodobnie istnieją specjalne przypadki, w których formułę można uprościć. Tym razem nie zadałem sobie trudu znalezienia tych uproszczeń.

Oczekiwana wartość, której szukasz, liczby kolorów zależnych od to:n

γn=i=1kPn,ii
jakab922
źródło
4
Nazywasz prawdopodobieństwo, ale wydaje się, że określono ją jako sumę liczb całkowitych. Czy zapomniałeś coś podzielić? Pn,c
Kodiolog
Tak, chyba masz rację. Musisz podzielić przez , ale niestety nadal nie jest tak. Jeśli i robię podwójne liczenie w powyższej formule. (Nn)E,FEc(B)EF
jakab922
Wygląda na to, że wzór można naprawić za pomocą metody sitowej. Opublikuję poprawkę później dzisiaj.
jakab922,