Przedział ufności wokół stosunku dwóch proporcji

20

Mam dwie proporcje (np. Współczynnik klikalności (CTR) na link w układzie kontrolnym i CTR na link w układzie eksperymentalnym) i chcę obliczyć 95% przedział ufności wokół stosunku tych proporcji.

Jak mam to zrobic? Wiem, że mogę użyć metody delta do obliczenia wariancji tego współczynnika, ale nie jestem pewien, co robić poza tym. Czego powinienem użyć jako punktu środkowego przedziału ufności (mój obserwowany stosunek lub oczekiwany współczynnik, który jest inny) i ile standardowych odchyleń wokół tego współczynnika powinienem przyjąć?

Czy powinienem w ogóle używać wariancji metody delta? (Tak naprawdę nie dbam o wariancję, tylko przedział ufności.) Czy powinienem użyć Twierdzenia Fiellera , używając Przypadku 1 (ponieważ robię proporcje, myślę, że spełniam normalny wymóg dystrybucji)? Czy powinienem po prostu obliczyć próbkę bootstrap?

raegtin
źródło
1
Masz fundamentalny problem: większość proporcji ma pozytywną szansę na bycie zerową, stąd stosunek (proporcji niezależnych) ma pozytywną szansę na bycie niezdefiniowanym. Może to stanowić poważne utrudnienie dla metod przybliżonych (takich jak metoda delta) i sugeruje, że normalne przybliżenia powinny być postrzegane bardziej sceptycznie i testowane bardziej rygorystycznie niż zwykle.
whuber
Joseph L. Fleiss, Bruce Levin, Myunghee Cho Paik: Metody statystyczne dla stawek i proporcji [1] omawiają ryzyko względne, które jest ilorazem dwóch stóp. Nie mam tej książki, więc mogę przeglądać tylko indeks tematyczny i spis treści, ale może ma ją Twoja biblioteka. [1]: onlinelibrary.wiley.com/book/10.1002/0471445428
cbeleites podpory Monica
Z pewnością najlepszym sposobem byłby percentyl bootstrap?
Peter Ellis,

Odpowiedzi:

19

Standardowym sposobem osiągnięcia tego w epidemiologii (gdzie stosunek proporcji jest zwykle określany jako współczynnik ryzyka ) jest najpierw transformacja logarytmiczna stosunku, obliczenie przedziału ufności na skali logarytmicznej przy użyciu metody delta i przy założeniu normalnego rozkładu, następnie przekształć z powrotem. Działa to lepiej przy średnich próbkach niż przy użyciu metody delta w nietransformowanej skali, choć nadal będzie źle się zachowywać, jeśli liczba zdarzeń w którejkolwiek grupie będzie bardzo mała, i zawiedzie całkowicie, jeśli nie będzie żadnych zdarzeń w żadnej grupie.

Jeżeli istnieją oraz x 2 sukcesy w dwóch grupach spośród sum n 1 i n 2 , to oczywistym szacunek dla stosunku proporcji jest θ = x 1 / n 1x1x2n1n2

θ^=x1/n1x2/n2.

Stosując metodę delta i przy założeniu, że obie grupy są niezależne i sukcesy są binomially rozpowszechnione, można wykazać, że Biorąc pierwiastka kwadratowego daje błędu standardowego SE ( log θ ) . Zakładając, że dziennik θ ma rozkład normalny, a 95% przedział ufności dla dziennika θ

Var(logθ^)=1/x11/n1+1/x21/n2.
SE(logθ^)logθ^logθjest Exponentiating Daje to 95% przedział ufności dla stosunku proporcji θ jako θ exp [ ± 1,96 SE ( log θ ) ] .
logθ^±1.96SE(logθ^).
θ
θ^exp[±1.96SE(logθ^)].
jeden przystanek
źródło
5
n1n2n1p1n2p210x2=0xi=ni1/2xi1nipini4ni
@whuber: „podejście podobne do korekty ciągłości” - czy użycie 1/2 jest w szczególności powszechną sztuczką? (W przeciwieństwie do niektórych innych małych pseudokontów.) Sposób, w jaki to sformułowałeś, sprawia, że ​​1/2 brzmi w jakiś sposób zasadnie =) - prawda?
raegtin
xini
Dlaczego pierwiastek kwadratowy wariancji błąd standardowy w tym przypadku, a nie odchylenie standardowe?
Mikko
2
@onestop Czy to jest zaimplementowane w jakimkolwiek pakiecie R?
Bogdan Vasilescu