Mam dwie proporcje (np. Współczynnik klikalności (CTR) na link w układzie kontrolnym i CTR na link w układzie eksperymentalnym) i chcę obliczyć 95% przedział ufności wokół stosunku tych proporcji.
Jak mam to zrobic? Wiem, że mogę użyć metody delta do obliczenia wariancji tego współczynnika, ale nie jestem pewien, co robić poza tym. Czego powinienem użyć jako punktu środkowego przedziału ufności (mój obserwowany stosunek lub oczekiwany współczynnik, który jest inny) i ile standardowych odchyleń wokół tego współczynnika powinienem przyjąć?
Czy powinienem w ogóle używać wariancji metody delta? (Tak naprawdę nie dbam o wariancję, tylko przedział ufności.) Czy powinienem użyć Twierdzenia Fiellera , używając Przypadku 1 (ponieważ robię proporcje, myślę, że spełniam normalny wymóg dystrybucji)? Czy powinienem po prostu obliczyć próbkę bootstrap?
źródło
Odpowiedzi:
Standardowym sposobem osiągnięcia tego w epidemiologii (gdzie stosunek proporcji jest zwykle określany jako współczynnik ryzyka ) jest najpierw transformacja logarytmiczna stosunku, obliczenie przedziału ufności na skali logarytmicznej przy użyciu metody delta i przy założeniu normalnego rozkładu, następnie przekształć z powrotem. Działa to lepiej przy średnich próbkach niż przy użyciu metody delta w nietransformowanej skali, choć nadal będzie źle się zachowywać, jeśli liczba zdarzeń w którejkolwiek grupie będzie bardzo mała, i zawiedzie całkowicie, jeśli nie będzie żadnych zdarzeń w żadnej grupie.
Jeżeli istnieją oraz x 2 sukcesy w dwóch grupach spośród sum n 1 i n 2 , to oczywistym szacunek dla stosunku proporcji jest θ = x 1 / n 1x1 x2 n1 n2
Stosując metodę delta i przy założeniu, że obie grupy są niezależne i sukcesy są binomially rozpowszechnione, można wykazać, że Biorąc pierwiastka kwadratowego daje błędu standardowego SE ( log θ ) . Zakładając, że dziennik θ ma rozkład normalny, a 95% przedział ufności dla dziennika θ
źródło