Przedział ufności dla próbkowania Bernoulliego

42

Mam losową próbkę losowych zmiennych Bernoulliego , gdzie X i oznaczają iidrv, a P ( X i = 1 ) = p , a p jest nieznanym parametrem.X1...XNXiP(Xi=1)=pp

Oczywiście, można znaleźć oszacowanie : p : = ( X 1 + + X N ) / N .pp^:=(X1++XN)/N

Moje pytanie brzmi: jak mogę zbudować przedział ufności dla ?p

ameba mówi Przywróć Monikę
źródło
2
Wikipedia zawiera szczegółowe informacje na temat obliczania przedziałów ufności dla próbkowania bernoulli .

Odpowiedzi:

52
  • Jeżeli wartość , nie jest w pobliżu 1 albo 0 , a wielkość próbki n jest wystarczająco duże (tzn n p > 5 , a n ( 1 - P ) > 5 , przedział ufności może być określona za pomocą normalnego rozkładu przedział ufności skonstruowany w ten sposób:p^10nnp^>5n(1p^)>5

    p^±z1α/2p^(1p^)n
  • Jeśli p = 0 i n > 30 , 95 % przedział ufności wynosi około [ 0 , 3p^=0n>3095%(Javanovic i Levy, 1997); Przeciwieństwo jest dla p =1. Odnośnik omawia także użycien+1in+b(później w celu włączenia wcześniejszych informacji).[0,3n] p^=1n+1n+b

  • np^

R zapewnia funkcje binconf {Hmisc}i binom.confint {binom}które mogą być używane w następujący sposób:

set.seed(0)
p <- runif(1,0,1)
X <- sample(c(0,1), size = 100, replace = TRUE, prob = c(1-p, p))
library(Hmisc)
binconf(sum(X), length(X), alpha = 0.05, method = 'all')
library(binom)
binom.confint(sum(X), length(X), conf.level = 0.95, method = 'all')

Agresti, Alan; Coull, Brent A. (1998). „Przybliżona wartość jest lepsza niż„ dokładna ”przy szacowaniu przedziałów proporcji dwumianowych”. The American Statistician 52: 119–126.

Jovanovic, BD i PS Levy, 1997. Spojrzenie na zasadę trzech. The American Statistician Vol. 51, nr 2, s. 137-139

Ross, TD (2003). „Dokładne przedziały ufności dla proporcji dwumianowej i estymacji Poissona”. Computers in Biology and Medicine 33: 509–531.

David LeBauer
źródło
3
(+1) Ładna odpowiedź. Myślę, że stanie się to punktem odniesienia dla podobnych pytań w przyszłości. Jednak zamieszczanie postów jest niezwykłe; w rzeczywistości uważam, że jest to niezadowolone, ponieważ psuje wiele aspektów systemu sprzężenia zwrotnego / odnośników / wątków / komentarzy. Proszę rozważyć usunięcie jednej z kopii i zastąpienie jej linkiem w komentarzu.
whuber
@ whuber dzięki za opinie. Usunąłem drugą kopię.
David LeBauer,
W pierwszym wzorze czym są Z1 i alfa?
Cirdec
z1α/21α/2α
3/n
7

Maksymalne przedziały ufności prawdopodobieństwa

p

β^0=log(p^/(1p^))

αβ0

CI(β0)α=β^0±Zα/21/(np^(1p^)

p

CI(p)α=1/(1+exp(CI(β0)α)

Ten CI ma tę dodatkową zaletę, że proporcje leżą w przedziale między 0 lub 1, a CI jest zawsze węższy niż normalny przedział, będąc na właściwym poziomie. Możesz to bardzo łatwo uzyskać w R, określając:

set.seed(123)
y <- rbinom(100, 1, 0.35)
plogis(confint(glm(y ~ 1, family=binomial)))

    2.5 %    97.5 % 
0.2795322 0.4670450 

Dokładne dwumianowe przedziały ufności

Y=np^(n,p)p^

CIα=(Fp^1(0.025),Fp^1(0.975))

p

qbinom(p = c(0.025, 0.975), size = length(y), prob = mean(y))/length(y)
[1] 0.28 0.47

Mediana obiektywnych przedziałów ufności

pp1α/2

p1α/2:P(Y=0)/2+P(Y>y)>0.975

Jest to również procedura obliczeniowa.

set.seed(12345)
y <- rbinom(100, 1, 0.01) ## all 0
cil <- 0
mupfun <- function(p) {
  0.5*dbinom(0, 100, p) + 
    pbinom(1, 100, p, lower.tail = F) - 
    0.975
} ## for y=0 successes out of n=100 trials
ciu <- uniroot(mupfun, c(0, 1))$root
c(cil, ciu)

[1] 0.00000000 0.05357998 ## includes the 0.01 actual probability

Dwie ostatnie metody są zaimplementowane w epitoolspakiecie w języku R.

AdamO
źródło