Błąd w oszacowaniu rozmiaru zestawu?

9

Załóżmy, że mamy zestaw A i podzbiór B. Jeśli znamy | A |, możemy obliczyć | B | przez znalezienie prawdopodobieństwa p, że element losowo wybrany losowo z A należy do B. Konkretnie | A | p = | B |.

Załóżmy, że generujemy n elementów A równomiernie losowo i używamy tych danych do oszacowania p (liczba elementów w B podzielona przez n), a zatem oszacowania | B |.

Jak wiarygodne jest to oszacowanie? Tj. Jak możemy obliczyć błąd?

Jako pytanie poboczne, czy istnieje nazwa tej techniki? (wydaje się, że jest to matematyczna wersja techniki mark-and-recapture )

Douglas S. Kamienie
źródło
1
To oszacowanie dwumianowe . (W ogóle nie ma oznakowania ani ponownego
przechwytywania

Odpowiedzi:

8

Szacujesz proporcje. Konkretnie, wyobraź sobie, że A jest populacją wyborców, a B jest zbiorem wyborców, którzy głosują na konkretnego kandydata. Zatem p będzie procentem wyborców, którzy głosowaliby na tego kandydata. Pozwolić:

π być prawdziwym odsetkiem osób, które głosowałyby na kandydata

Innymi słowy:

π=|B||A|

Zatem każda z twoich próbek jest próbą bernoulli z prawdopodobieństwem πlub równoważnie możesz sobie wyobrazić, że każda z twoich próbek jest ankietą potencjalnych wyborców, pytającą ich, czy zagłosowaliby na kandydata. Zatem MLE zπ jest dany przez:

p=nBn

gdzie

nB to liczba osób, które powiedziały, że zagłosują na kandydata lub liczba elementów, które należą do zestawu B w twojej próbie wielkości n.

Standardowy błąd szacunku to:

π(1π)n

Powyższe można oszacować za pomocą MLE dla π tj. przez:

p(1-p)n


źródło