Istnieje serwis internetowy, w którym mogę poprosić o informacje na temat losowego przedmiotu. Przy każdym zamówieniu każdy przedmiot ma równą szansę na zwrot.
Potrafię nadal zamawiać przedmioty i rejestrować liczbę duplikatów i unikatowe. Jak mogę wykorzystać te dane do oszacowania całkowitej liczby produktów?
Odpowiedzi:
Jest to zasadniczo wariant problemu kolektora kuponów.
Jeżeli istnieje pozycji łącznie i miały wielkość próbki s z wymianą to prawdopodobieństwo po zidentyfikowaniu ù unikalne elementów jest P r ( U = U | n , jest w ) = S 2 ( a , u ) N !n s u
gdzieS2(s,u)dajeliczby Stirlinga drugiego rodzaju
Teraz wszystko, czego potrzebujemy, to przed dystrybucji , stosuje Twierdzenie Bayesa i dostać tylną dystrybucję dla N .P.r ( N= n ) N.
źródło
Dałem już sugestię opartą na liczbach Stirlinga drugiego rodzaju i metodach bayesowskich.
Dla tych, którzy uważają, że liczby Stirlinga są zbyt duże lub metody Bayesa zbyt trudne, może być zastosowanie bardziej surowej metody
i ponownie obliczyć za pomocą metod numerycznych.
źródło
Można użyć metody wychwytywania odbić , również wdrożony jako opakowania Rcapture R .
Oto przykład zakodowany w R. Załóżmy, że usługa sieciowa ma N = 1000 pozycji. Zrobimy n = 300 wniosków. Wygeneruj losową próbkę, gdzie, numerując elementy od 1 do k, gdzie k to ile różnych przedmiotów widzieliśmy.
Wynikiem symulacji jest
tak więc wśród 300 próśb były 4 pozycje widoczne 3 razy, 27 pozycji widziałem dwa razy, a 234 pozycji pokazano tylko raz.
Teraz oszacuj N z tej próbki:
Wynik:
EDYCJA: Aby sprawdzić wiarygodność powyższej metody, uruchomiłem powyższy kod na 10000 wygenerowanych próbkach. Model MH Chao zbierał się za każdym razem. Oto podsumowanie:
źródło