Uważa się je za symetryczne, ponieważ dość często stosuje się normalne przybliżenie. Ten działa wystarczająco dobrze, jeśli p wynosi około 0,5. binom.test
z drugiej strony podaje „dokładne” przedziały Cloppera-Pearsona, które są oparte na rozkładzie F (zobacz tutaj dokładne formuły obu podejść). Gdybyśmy zaimplementowali interwał Cloppera-Pearsona w R, byłoby to coś w rodzaju (patrz uwaga ):
Clopper.Pearson <- function(x, n, conf.level){
alpha <- (1 - conf.level) / 2
QF.l <- qf(1 - alpha, 2*n - 2*x + 2, 2*x)
QF.u <- qf(1 - alpha, 2*x + 2, 2*n - 2*x)
ll <- if (x == 0){
0
} else { x / ( x + (n-x+1)*QF.l ) }
uu <- if (x == 0){
0
} else { (x+1)*QF.u / ( n - x + (x+1)*QF.u ) }
return(c(ll, uu))
}
Zarówno w linku, jak i implementacji widać, że formuła dla górnej i dolnej granicy jest zupełnie inna. Jedynym przypadkiem symetrycznego przedziału ufności jest sytuacja, gdy p = 0,5. Używając wzorów z linku i biorąc pod uwagę, że w tym przypadku łatwo jest ustalić, jak to jest.n=2×x
Osobiście zrozumiałem to lepiej, patrząc na przedziały ufności oparte na podejściu logistycznym. Dane dwumianowe są na ogół modelowane za pomocą funkcji łącza logit, zdefiniowanej jako:
logit(x)=log(x1−x)
Ta funkcja łącza „odwzorowuje” błąd w regresji logistycznej na rozkład normalny. W konsekwencji przedziały ufności w ramach logistycznych są symetryczne wokół wartości logit, podobnie jak w klasycznych ramach regresji liniowej. Transformacja logit jest używana dokładnie, aby umożliwić wykorzystanie całej teorii opartej na normalności wokół regresji liniowej.
Po wykonaniu odwrotnej transformacji:
logit−1(x)=ex1+ex
Znowu dostajesz asymetryczny interwał. Teraz te przedziały ufności są właściwie stronnicze. Ich zasięg nie jest tym, czego można się spodziewać, zwłaszcza na granicach rozkładu dwumianowego. Jednak jako ilustracja pokazują, dlaczego logiczne jest, że rozkład dwumianowy ma asymetryczne przedziały ufności.
Przykład w R:
logit <- function(x){ log(x/(1-x)) }
inv.logit <- function(x){ exp(x)/(1+exp(x)) }
x <- c(0.2, 0.5, 0.8)
lx <- logit(x)
upper <- lx + 2
lower <- lx - 2
logxtab <- cbind(lx, upper, lower)
logxtab # the confidence intervals are symmetric by construction
xtab <- inv.logit(logxtab)
xtab # back transformation gives asymmetric confidence intervals
Uwaga : W rzeczywistości R używa rozkładu beta, ale jest to całkowicie równoważne i obliczeniowo nieco bardziej wydajne. Implementacja w R różni się zatem od tego, co tutaj pokazuję, ale daje dokładnie ten sam rezultat.
Aby zobaczyć, dlaczego nie powinno być symetryczne, pomyśl o sytuacji, w której a otrzymasz 9 sukcesów w 10 próbach. Następnie P = 0,9 i 95% przedział ufności dla p wynosi [0.554, 0.997]. Górna granica nie może być większa niż 1 oczywiście, więc większość niepewność może spaść z lewej str .p=0.9 p^=0.9 p p^
źródło
@Joris wspomniał o symetrycznym lub „asymptotycznym” przedziale, który jest najprawdopodobniej tym, którego się spodziewasz. @Joris wspomniał również o „dokładnych” odstępach Cloppera-Pearsona i dał ci referencje, które wyglądają bardzo ładnie. Istnieje inny przedział ufności dla proporcji, które prawdopodobnie napotkasz (pamiętaj, że nie jest on również symetryczny), przedział „Wilsona”, który jest rodzajem asymptotycznego przedziału opartego na odwróceniu wyniku testu. Końce przedziału rozwiązania (w ) Równanie ( p - p ) / √p
W każdym razie, możesz dostać wszystkie trzy w R z następującymi:
Zauważ, że metoda „wilson” jest tym samym przedziałem ufności, który jest używany przez prop.test bez korekcji ciągłości Yatesa:
Zobacz tutaj darmowy podręcznik Laury Thompson SPLUS + R, który towarzyszy Kategorycznej analizie danych Agresti, w której kwestie te są szczegółowo omówione.
źródło
Tam są symetryczne przedziały ufności dla rozkładu dwumianowego: asymetria nie jest zmuszony na nas, mimo wszystkich powodów już wymienionych. Przedziały symetryczne są zwykle uważane za gorsze
Chociaż są one symetryczne numerycznie , prawdopodobieństwo nie jest symetryczne : to znaczy, że ich jednostronne pokrycia różnią się od siebie. To - niezbędna konsekwencja możliwej asymetrii rozkładu dwumianowego - jest sednem sprawy.
Często jeden punkt końcowy musi być nierealny (mniejszy niż 0 lub większy niż 1), jak wskazuje @Rob Hyndman.
Powiedziawszy to, podejrzewam, że liczbowo symetryczne CI mogą mieć pewne dobre właściwości, takie jak tendencja do bycia krótszymi niż probabilistycznie symetryczne w niektórych okolicznościach.
źródło
źródło
Wiem, że minęło trochę czasu, ale pomyślałem, że będę tu dzwonił. Biorąc pod uwagę nip, łatwo jest obliczyć prawdopodobieństwo określonej liczby sukcesów bezpośrednio przy użyciu rozkładu dwumianowego. Następnie można sprawdzić rozkład, aby zobaczyć, czy nie jest on symetryczny. Zbliża się do symetrii dla dużych np i dużych n (1-p).
Można zebrać prawdopodobieństwa w ogonach, aby obliczyć konkretny CI. Biorąc pod uwagę dyskretny charakter rozkładu, znalezienie szczególnego prawdopodobieństwa w ogonie (np. 2,5% dla 95% CI) będzie wymagało interpolacji między liczbą sukcesów. Dzięki tej metodzie można obliczać CI bezpośrednio bez przybliżenia (innego niż wymagana interpolacja).
źródło