Przedział ufności wokół dwumianowego oszacowania 0 lub 1

Jaka jest najlepsza technika do obliczenia przedziału ufności eksperymentu dwumianowego, jeśli szacujesz, że (lub podobnie ), a wielkość próby jest względnie mała, na przykład ? $p=0$ $p=1$ $n=25$

confidence-interval binomial Kasper
źródło

Jak bliskie zeru jest

? Czy często wynosi zero, czy jest rzędu 0,001, 0,01, czy ...? A ile masz danych?

\hat{p}

$\hat{p}$

jbowman

Zwykle mamy ponad 800 prób. Zwykle oczekiwać od 0 do 0,1 dla

\hat{p}

$\hat{p}$

AI2.0

Użyj połączonego interwału Clopper – Pearson. Ogólna zasada: spróbuj najpierw interwał Cloppera-Pearsona. Jeśli komputer nie może uzyskać odpowiedzi, spróbuj zastosować metodę przybliżenia, na przykład normalne zbliżenie. Zgodnie z obecną prędkością komputera, nie sądzę, że potrzebujemy przybliżenia w większości sytuacji.

user158565,

Aby uzyskać tylko górną granicę przedziału ufności za pomocą ( poziom ufności 1

, użyjemy tylko B (1

; x + 1, n − x), gdzie x jest liczbą sukcesów (lub niepowodzeń), n oznacza wielkość próbki. W pythonie po prostu używamy . Jeśli jest to PRAWDA, czy możemy dojść do wniosku, że jesteśmy 1–

pewni, że górna granica jest ograniczona wartością, którą obliczamy ?

α

$\alpha$

α

$\alpha$ scipy.stats.beta.ppf(1−$\alpha$;x+1,n−x)

α

$\alpha$ scipy.stats.beta.ppf(1−$\alpha$;x+1,n−x)

AI2.0

Przy 800 próbach normalne przybliżenie normalne będzie działać dość dobrze do około

(moje symulacje wykazały rzeczywiste pokrycie 94,5% przedziału ufności 95%.) Przy 1000 próbach

rzeczywiste pokrycie wynosiło około 92,7% (wszystkie oparte na 100 000 replikacji). Jest to więc problem tylko dla bardzo niskiego

, biorąc pod uwagę liczbę prób.

p = 0.015

$p=0.015$

p = 0.01

$p=0.01$

p

$p$

jbowman

Odpowiedzi:

Nie używaj normalnego przybliżenia

Wiele napisano o tym problemie. Ogólnie zaleca się, aby nigdy nie stosować normalnego przybliżenia (tj. Przedziału ufności asymptotycznego / Walda), ponieważ ma on straszne właściwości pokrycia. Kod R ilustrujący to:

library(binom)
p = seq(0,1,.001)
coverage = binom.coverage(p, 25, method="asymptotic")$coverage
plot(p, coverage, type="l")
binom.confint(0,25)
abline(h=.95, col="red")

Prawdopodobieństwa pokrycia dla asymptotycznych przedziałów ufności dla proporcji dwumianowej.

W przypadku małych prawdopodobieństw sukcesu możesz poprosić o 95% przedział ufności, ale tak naprawdę, powiedzmy, 10% przedział ufności!

Rekomendacje

Czego więc powinniśmy użyć? Uważam, że obecne zalecenia są wymienione w artykule Interval Estimation for a Binomial Proportion autorstwa Browna, Cai i DasGupta in Statistics Science 2001, vol. 16, nr 2, strony 101–133. Autorzy zbadali kilka metod obliczania przedziałów ufności i doszli do następującego wniosku.

[W] Zalecamy przedział Wilsona lub równy wcześniej Jeffreys dla przedziału dla małych n, a przedział sugerowany w Agresti i Coull dla większych n .

Interwał Wilsona jest czasem nazywany także interwałem oceny , ponieważ opiera się na odwróceniu testu oceny.

Obliczanie przedziałów

Aby obliczyć te przedziały ufności, możesz użyć tego kalkulatora online lub binom.confint()funkcji w binompakiecie w R. Na przykład, dla 0 sukcesów w 25 próbach, kod R byłby:

> binom.confint(0, 25, method=c("wilson", "bayes", "agresti-coull"),
  type="central")
         method x  n  mean  lower upper
1 agresti-coull 0 25 0.000 -0.024 0.158
2         bayes 0 25 0.019  0.000 0.073
3        wilson 0 25 0.000  0.000 0.133

Oto bayesinterwał Jeffreysa. (Argument type="central"jest potrzebny, aby uzyskać przedział równości .)

Pamiętaj, że powinieneś zdecydować, której z trzech metod chcesz użyć przed obliczeniem interwału. Patrząc na wszystkie trzy i wybierając najkrótsze, naturalnie otrzymasz zbyt małe prawdopodobieństwo pokrycia.

Szybka, przybliżona odpowiedź

Na koniec, jeśli zaobserwujesz dokładnie zero sukcesów w swoich n próbach i po prostu chcesz bardzo szybkiego przybliżonego przedziału ufności, możesz zastosować zasadę trzech . Po prostu podziel liczbę 3 przez n . W powyższym przykładzie n wynosi 25, więc górna granica wynosi 3/25 = 0,12 (dolna granica to oczywiście 0).

Karl Ove Hufthammer
źródło

Bardzo dziękuję za odpowiedź. Wyobraź sobie ten przykład z życia: architekt musi przetestować w wieżowcu, czy wszystkie panele izolacyjne w sufitach są prawidłowo zainstalowane. Otwiera losowo 25 paneli sufitowych na losowym wyborze podłóg i znajduje przede wszystkim izolację paneli sufitowych. Możemy zatem stwierdzić, że prawdziwe prawdopodobieństwo posiadania panelu izolacyjnego jest z 95% pewnością między CI [0,867 do 1] w oparciu o przedział punktacji Wilsona?

Kasper

Nie powiedziałbym, że można to zakończyć z „95% pewnością” (Google dla „poprawnej interpretacji przedziałów ufności”). Opiera się to również na założeniu niezależnych prób z jednakowymi prawdopodobieństwami sukcesu, co może nie być realistyczne. Być może ostatnie zainstalowane panele miały większe ryzyko nieprawidłowej instalacji (osoba, która je instalowała, była zmęczona / znudzona). A może te pierwsze były, ponieważ osoba ta była wtedy mniej doświadczona. W każdym razie, jeśli architekt został poproszony o sprawdzenie, czy wszystkie panele są poprawnie zainstalowane, powinien wykonać swoją pracę, a nie tylko przetestować próbkę!

Karl Ove Hufthammer

bayesużywa wcześniejszego munduru (zamiast Jeffreya), gdy oba parametry kształtu wynoszą 1. Wysłałem e-maila z opiekunem pakietu binom z ciekawości o (nie) zaletach wcześniejszego munduru Jeffreya i powiedział mi, że nowa wersja będzie używać mundur przed jako domyślny. Nie zastanawiaj się więc, czy wyniki będą się nieco różnić w przyszłości.

cbeleites wspiera Monikę

To doskonała odpowiedź. Przekazuje wszystkie kluczowe informacje, które można przeczytać w artykułach na ten temat, ale bardzo zwięźle i wyraźnie. Gdybym mógł dwukrotnie głosować, zrobiłbym to.

SigmaX

binconfMetoda Hmiscrównież oblicza tych przedziałów. Domyślnie jest to metoda Wilsona.

SigmaX

$p\pm z_{\alpha/2}\sqrt{p(1-p)/n}$ $\pi_0$ $\pi_0$ $\pi_0$

\frac{| p - π_{0} |}{\sqrt{p (1 - p) / n}} = 0

$\frac{|p-\pi_0|}{\sqrt{p(1-p)/n}}=0$

(1 + z_{0}^{2)} / n) π_{0}^{2)} + (- 2) p - z_{0}^{2)} / n) π_{0} + p^{2)} = 0

$(1+z_0^2/n)\pi_0^2+(-2p-z_0^2/n)\pi_0+p^2=0$

Jay Schyler Raadt
źródło

π_{0}

$\pi_0$

π_{0}

$\pi_0$

p

$p$

n

$n$

To jest Agresti.

Nick Cox,

@NickCox to inna praca

Jay Schyler Raadt,

Alan Agresti opublikował różne teksty. Chyba nawiązujesz do An Introduction to Categorical Data Analysis (2. edycja 2007; 3. edycja zaplanowana na publikację w październiku 2018 r. I może nosić datę 2019 r.) Od Johna Wileya.

Nick Cox,