Załóżmy, że mamy zestaw A i podzbiór B. Jeśli znamy | A |, możemy obliczyć | B | przez znalezienie prawdopodobieństwa p, że element losowo wybrany losowo z A należy do B. Konkretnie | A | p = | B |.
Załóżmy, że generujemy n elementów A równomiernie losowo i używamy tych danych do oszacowania p (liczba elementów w B podzielona przez n), a zatem oszacowania | B |.
Jak wiarygodne jest to oszacowanie? Tj. Jak możemy obliczyć błąd?
Jako pytanie poboczne, czy istnieje nazwa tej techniki? (wydaje się, że jest to matematyczna wersja techniki mark-and-recapture )
estimation
Douglas S. Kamienie
źródło
źródło
Odpowiedzi:
Szacujesz proporcje. Konkretnie, wyobraź sobie, że A jest populacją wyborców, a B jest zbiorem wyborców, którzy głosują na konkretnego kandydata. Zatem p będzie procentem wyborców, którzy głosowaliby na tego kandydata. Pozwolić:
Innymi słowy:
Zatem każda z twoich próbek jest próbą bernoulli z prawdopodobieństwemπ lub równoważnie możesz sobie wyobrazić, że każda z twoich próbek jest ankietą potencjalnych wyborców, pytającą ich, czy zagłosowaliby na kandydata. Zatem MLE zπ jest dany przez:
gdzie
Standardowy błąd szacunku to:
Powyższe można oszacować za pomocą MLE dlaπ tj. przez:
źródło