Szacowanie prawdopodobieństwa w procesie Bernoulliego poprzez próbkowanie aż do 10 awarii: czy jest on stronniczy?

15

Załóżmy, że mamy proces Bernoulliego z prawdopodobieństwem uszkodzenia q (który będzie mały, powiedzmy, q0.01 ), z którego próbkujemy, aż napotkamy 10 uszkodzeń. W ten sposób, że oszacowania prawdopodobieństwa awarii jak q : = 10 / N , gdzie N jest liczbą próbek.q^:=10/NN

Pytanie : Czy q stronniczy oszacowanie od q ? A jeśli tak, to czy można to naprawić?q^q

Obawiam się, że naleganie na ostatnią próbkę jest porażką, która podważa szacunki.

bekliwy
źródło
5
Obecne odpowiedzi nie kończą się na zapewnieniu estymatora obiektywnego minimalnej wariancji . Zobacz sekcję próbkowania i szacowania punktów w artykule w Wikipedii na temat ujemnego rozkładu dwumianowego . (101)/(N1)
A. Webb,

Odpowiedzi:

10

Prawdą jest, że q jest stronniczy oszacowanie q w tym sensie, że E ( q ) q , ale nie należy koniecznie niech to powstrzymało cię. Ten dokładny scenariusz można wykorzystać jako krytykę pomysłu, że zawsze powinniśmy używać obiektywnych estymatorów, ponieważ tutaj uprzedzenie jest bardziej artefaktem konkretnego eksperymentu, który akurat przeprowadzamy. Dane wyglądają dokładnie tak, jak gdybyśmy wcześniej wybrali liczbę próbek, więc dlaczego mielibyśmy zmieniać nasze wnioski?q^qE(q^)q

Co ciekawe, jeśli miałbyś zbierać dane w ten sposób, a następnie zapisać funkcję prawdopodobieństwa zarówno w modelach dwumianowych (stały rozmiar próbki), jak i ujemnych dwumianowych, okazałoby się, że oba są proporcjonalne względem siebie. Oznacza to, że q jest po prostu zwykły szacunek maksymalne prawdopodobieństwo pod ujemnego dwumianowego modelu, co oczywiście jest całkowicie uzasadnione oszacowania.q^

dsaxton
źródło
Świetny! Wygląda na to (dla moich celów), że to uprzedzenie nie stanowi problemu.
becky
9

Nie nalega, aby ostatnia próbka była porażką, która podważa oszacowanie, przyjmuje odwrotność N

Więc w twoim przykładzie, ale E[10E[N10]=1q. Zbliża się to do porównania średniej arytmetycznej ze średnią harmonicznąE[10N]q

Zła wiadomość jest taka, że ​​odchylenie może wzrosnąć, gdy zmniejsza się, choć niewiele, gdy q jest już małe. Dobrą wiadomością jest to, że stronniczość maleje wraz ze wzrostem wymaganej liczby awarii. Wydaje się, że jeśli potrzebujesz awarii f , to uprzedzenie jest ograniczone przez mnożnik fqqf dla małegoq; nie chcesz tego podejścia, gdy zatrzymasz się po pierwszej awarii ff1q

Zatrzymując się po awariach, przy q = 0,01 otrzymasz E [ N10q=0.01ale E[10E[N10]=100, natomiast przyq=0,001otrzymaszE[NE[10N]0.011097q=0.001ale E[10E[N10]=1000. Odchylenie około10E[10N]0.001111 mnożnik 109

Henz
źródło
7

q^k=10q0=0.02

n_replications <- 10000
k <- 10
failure_prob <- 0.02
n_trials <- k + rnbinom(n_replications, size=k, prob=failure_prob)
all(n_trials >= k)  # Sanity check, cannot have 10 failures in < 10 trials

estimated_failure_probability <- k / n_trials
histogram_breaks <- seq(0, max(estimated_failure_probability) + 0.001, 0.001)
## png("estimated_failure_probability.png")
hist(estimated_failure_probability, breaks=histogram_breaks)
abline(v=failure_prob, col="red", lty=2, lwd=2)  # True failure probability in red
## dev.off()

mean(estimated_failure_probability)  # Around 0.022
sd(estimated_failure_probability)
t.test(x=estimated_failure_probability, mu=failure_prob)  # Interval around [0.0220, 0.0223]

E[q^]0.022q^

histogram q_hat

Adrian
źródło
1
To bardzo pomocne. Na tym poziomie nie warto się martwić.
becky
2
Możesz napisać tę symulację bardziej zwięźle jako10+rnbinom(10000,10,0.02)
A. Webb
@ A.Webb dziękuję, to dobra uwaga. Naprawdę wymyśliłem koło na nowo. Muszę przeczytać? Rnbinom, a następnie zredagować mój post
Adrian
1
To by było 10/(10+rnbinom(10000,10,0.02)). Parametryzacja polega raczej na liczbie sukcesów / niepowodzeń niż na całkowitej liczbie prób, więc musisz dodać k = 10 z powrotem. Zauważ, że obiektywny estymator byłby o 9/(9+rnbinom(10000,10,0.02))jeden mniej licznik i mianownik.
A. Webb,