W odmianie problemu z kolektorem kuponów nie znasz liczby kuponów i musisz to ustalić na podstawie danych. Będę nazywać to problemem związanym z ciasteczkami fortuny:
Biorąc pod uwagę nieznaną liczbę odrębnych wiadomości cookie fortuny , oszacuj , próbkując pliki cookie pojedynczo i licząc, ile razy pojawia się każda fortuna. Określ także liczbę próbek niezbędnych do uzyskania pożądanego przedziału ufności dla tego oszacowania.
Zasadniczo potrzebuję algorytmu, który pobiera próbki wystarczającej ilości danych, aby osiągnąć dany przedział ufności, powiedzmy z pewnością. Dla uproszczenia możemy założyć, że wszystkie fortuny pojawiają się z jednakowym prawdopodobieństwem / częstotliwością, ale nie dotyczy to bardziej ogólnego problemu, a rozwiązanie tego problemu jest również mile widziane.95 %
Wydaje się to podobne do problemu niemieckiego czołgu , ale w tym przypadku ciasteczka z wróżbą nie są kolejno oznaczane, a zatem nie mają kolejności.
Odpowiedzi:
W przypadku równego prawdopodobieństwa / częstotliwości to podejście może Ci pomóc.
Niech będzie całkowitą wielkością próbki, będzie liczbą zaobserwowanych różnych elementów, będzie liczbą elementów widocznych dokładnie jeden raz, będzie liczbą elementów widocznych dokładnie dwa razy, iN N 1 N 2 A = N 1 ( 1 - N 1K N N1 N2 Q =N1A=N1(1−N1K)+2N2, Q^=N1K.
Następnie w przybliżeniu 95% przedział ufności od całkowitej wielkości populacji jest przezn
Podczas wdrażania może być konieczne dostosowanie ich w zależności od danych.
Metoda wynika z dobrych i Turinga. Odniesieniem do przedziału ufności jest Esty, Warren W. (1983), „Normalne prawo graniczne dla nieparametrycznego estymatora pokrycia przypadkowej próbki” , Ann. Statystyk. , Tom 11, numer 3, 905–912.
W przypadku bardziej ogólnego problemu firma Bunge stworzyła bezpłatne oprogramowanie, które generuje kilka szacunków. Szukaj według jego imienia i słowa CatchAll .
źródło
Nie wiem, czy to może pomóc, ale jest to problem z przyjmowaniem różnych piłek podczas prób w urnie z piłkami oznaczonymi inaczej z wymianą. Według tej strony (po francusku) jeśli jeśli zmienna losowa zliczająca liczbę różnych kulek, funkcja prawdopodobieństwa jest dana przez: n m X n P ( X n = k ) = ( mk n m Xn P(Xn=k)=(mk)∑ki=0(−1)k−i(ki)(im)n
Następnie możesz użyć estymatora maksymalnego prawdopodobieństwa.
Podano inną formułę z dowodem rozwiązania problemu obłożenia .
źródło
Funkcja prawdopodobieństwa i prawdopodobieństwo
W odpowiedzi na pytanie o problem z urodzinami wstecznymi Cody Maughan podał rozwiązanie funkcji wiarygodności.
Funkcja prawdopodobieństwa liczby typów gotowania fortuny gdy narysujemy różnych ciasteczek fortuny w losowaniach (gdzie każdy typ ciasteczka fortuny ma równe prawdopodobieństwo pojawienia się w losowaniu) może być wyrażony jako:m k n
W celu ustalenia prawdopodobieństwa po prawej stronie zobacz problem z zajętością. Zostało to wcześniej opisane na tej stronie przez Bena. Wyrażenie jest podobne do tego w odpowiedzi Sylvaina.
Oszacowanie maksymalnego prawdopodobieństwa
Możemy obliczyć przybliżenia pierwszego i drugiego rzędu maksimum funkcji wiarygodności przy
Przedział prawdopodobieństwa
(Uwaga, to nie jest to samo co przedział ufności patrz: Podstawowa logika konstruowania przedziału ufności )
To pozostaje dla mnie otwarty problem. Nie jestem jeszcze pewien, jak poradzić sobie z wyrażeniem (Oczywiście można obliczyć wszystkie wartości i na tej podstawie wybrać granice, ale byłoby więcej miło mieć jakąś konkretną dokładną formułę lub oszacowanie). Nie mogę się odnieść do żadnej innej dystrybucji, która bardzo pomogłaby w jego ocenie. Ale wydaje mi się, że z tego podejścia opartego na przedziałach prawdopodobieństwa możliwe byłoby miłe (proste) wyrażenie.m−nm!(m−k)!
Przedział ufności
Dla przedziału ufności możemy użyć normalnego przybliżenia. W odpowiedzi Bena podano następującą średnią i wariancję:
Powiedz dla danej próbki i zaobserwowano unikalne pliki cookie 95% granic wygląda następująco:n=200 k E[K]±1.96V[K]−−−−√
Na powyższym obrazku narysowano krzywe dla interwału, wyrażając linie jako funkcję wielkości populacji i wielkości próbki (więc oś x jest zmienną zależną podczas rysowania tych krzywych).m n
Trudność polega na odwróceniu tego i uzyskaniu wartości przedziału dla danej obserwowanej wartości . Można to zrobić obliczeniowo, ale być może istnieje bardziej bezpośrednia funkcja.k
Na obrazku dodałem również przedziały ufności Cloppera Pearsona w oparciu o bezpośrednie obliczenie skumulowanego rozkładu na podstawie wszystkich prawdopodobieństw (Zrobiłem to w R, gdzie musiałem użyć funkcja z pakietu CryptRndTest , która jest asymptotycznym przybliżeniem logarytmu liczby Stirlinga drugiego rodzaju). Widać, że granice pokrywają się dość dobrze, więc normalne przybliżenie działa w tym przypadku dobrze.P(k|m,n)
Strlng2
źródło