Czy 50% przedziały ufności są lepiej oszacowane niż 95% przedziały ufności?

30

Moje pytanie wypływa z tego komentarza na blogu Andrew Gelmana, w którym opowiada się za stosowaniem 50% przedziałów ufności zamiast 95% przedziałów ufności, chociaż nie dlatego, że są one dokładniej oszacowane:

Wolę przerwy od 50% do 95% z 3 powodów:

  1. Stabilność obliczeniowa,

  2. Bardziej intuicyjna ocena (połowa 50% przedziałów powinna zawierać prawdziwą wartość),

  3. Poczucie, że w aplikacjach najlepiej jest wyczuć, gdzie będą parametry i przewidywane wartości, a nie próbować nierealistycznej niemal pewności.

Pomysł komentatora wydaje się być taki, że problemy z założeniami leżącymi u podstaw budowy przedziału ufności będą miały większy wpływ, jeśli będzie to 95% CI niż w przypadku 50% CI. Jednak tak naprawdę nie wyjaśnia dlaczego.

[...] przechodząc do większych przedziałów, stajesz się ogólnie bardziej wrażliwy na szczegóły lub założenia swojego modelu. Na przykład nigdy nie uwierzyłbyś, że poprawnie zidentyfikowałeś przedział 99,9995%. A przynajmniej taka jest moja intuicja. Jeśli ma rację, twierdzi, że 50 procent powinno być lepiej oszacowane niż 95 procent. A może oszacowano „bardziej solidnie”, ponieważ może być mniej wrażliwy na założenia dotyczące hałasu?

Czy to prawda? Dlaczego? Dlaczego nie?

user1205901 - Przywróć Monikę
źródło
Zwykle tak, niższe poziomy ufności są bardziej niezawodne. Rozważ oszacowanie mediany vs. 99 percentyla na próbce ze 100 obserwacjami. Każda pojedyncza duża obserwacja przesunie się o 99 percentyl, podczas gdy mediana nie będzie się dużo poruszać. Jestem pewien, że możesz znaleźć licznik, ale będzie on wyglądał nietypowo.
Aksakal

Odpowiedzi:

19

Ta odpowiedź analizuje znaczenie cytatu i oferuje wyniki badania symulacyjnego, aby go zilustrować i pomóc zrozumieć, co może on powiedzieć. Badanie może z łatwością przedłużyć każdy (z podstawowymi Rumiejętnościami) w celu zbadania innych procedur przedziału ufności i innych modeli.

W tej pracy pojawiły się dwie interesujące kwestie. Jedna dotyczy sposobu oceny dokładności procedury przedziału ufności. Od tego zależy wrażenie, jakie daje solidność. Wyświetlam dwie różne miary dokładności, abyś mógł je porównać.

Inną kwestią jest to, że chociaż procedura przedziału ufności o niskim poziomie ufności może być solidna, odpowiednie limity ufności mogą wcale nie być solidne. Odstępy zwykle działają dobrze, ponieważ błędy, które popełniają na jednym końcu, często równoważą błędy, które popełniają na drugim końcu. W praktyce możesz być całkiem pewien, że około połowa z przedziałów ufności pokrywa ich parametry, ale rzeczywisty parametr może konsekwentnie znajdować się w pobliżu jednego określonego końca każdego przedziału, w zależności od tego, jak rzeczywistość odbiega od założeń modelu.50%


Wytrzymałość ma standardowe znaczenie w statystykach:

Solidność na ogół implikuje niewrażliwość na odstępstwa od założeń otaczających podstawowy model probabilistyczny.

(Hoaglin, Mosteller i Tukey, Understanding Robust and Exploratory Data Analysis . J. Wiley (1983), s. 2)

Jest to zgodne z cytatem w pytaniu. Aby zrozumieć ofertę , nadal musimy znać zamierzony cel przedziału ufności. W tym celu przejrzyjmy to, co napisał Gelman.

Wolę przerwy od 50% do 95% z 3 powodów:

  1. Stabilność obliczeniowa,

  2. Bardziej intuicyjna ocena (połowa 50% przedziałów powinna zawierać prawdziwą wartość),

  3. Poczucie, że w aplikacjach najlepiej jest zorientować się, gdzie będą parametry i przewidywane wartości, a nie próbować nierealistycznej niemal pewności.

Ponieważ zrozumienie przewidywanych wartości nie jest tym, do czego przeznaczone są przedziały ufności (CI), skupię się na uzyskaniu poczucia wartości parametrów , co robią CI. Nazwijmy je „wartościami docelowymi”. Skąd z definicji element CI ma obejmować cel z określonym prawdopodobieństwem (poziomem ufności). Osiągnięcie zamierzonych wskaźników zasięgu jest minimalnym kryterium oceny jakości dowolnej procedury CI. (Dodatkowo możemy być zainteresowani typowymi szerokościami CI. Aby utrzymać słupek na rozsądnej długości, zignoruję ten problem).

Te rozważania zachęcają nas do zbadania, o ile obliczenie przedziału ufności może nas wprowadzić w błąd co do wartości parametru docelowego. Cytat można odczytać jako sugerujący, że CI o niższym poziomie ufności mogą zachować swój zasięg, nawet jeśli dane są generowane przez proces inny niż model. To możemy przetestować. Procedura jest następująca:

  • Przyjmij model prawdopodobieństwa, który zawiera co najmniej jeden parametr. Klasycznym jest próbkowanie z rozkładu normalnego o nieznanej średniej i wariancji.

  • Wybierz procedurę CI dla jednego lub więcej parametrów modelu. Znakomity konstruuje CI na podstawie średniej próbki i odchylenia standardowego próbki, mnożąc ją przez współczynnik podany przez rozkład t Studenta.

  • Zastosuj tę procedurę do różnych różnych modeli - nie odchodząc zbytnio od przyjętego - aby ocenić jej zasięg na różnych poziomach ufności.

50%99,8%

αp, następnie

log(p1-p)-log(α1-α)

ładnie oddaje różnicę. Gdy wynosi zero, zasięg jest dokładnie zamierzoną wartością. Gdy jest ujemny, zasięg jest zbyt niski - co oznacza, że ​​CI jest zbyt optymistyczny i nie docenia niepewności.

Pytanie brzmi zatem, jak te poziomy błędów różnią się w zależności od poziomu ufności, gdy zaburzony jest model podstawowy? Możemy na to odpowiedzieć, wykreślając wyniki symulacji. Te wykresy określają, jak „nierealna” może być „prawie pewność” CI w tym archetypowym zastosowaniu.

Postać

(1/30,1/30)

α95%3)

α=50%50%95%5% czasu, powinniśmy być przygotowani na to, że nasz poziom błędów będzie znacznie większy, na wypadek gdyby świat nie działał dokładnie tak, jak zakłada nasz model.

50%50%


To jest Rkod, który wytworzył wykresy. Można go łatwo modyfikować, aby badać inne rozkłady, inne przedziały ufności i inne procedury CI.

#
# Zero-mean distributions.
#
distributions <- list(Beta=function(n) rbeta(n, 1/30, 1/30) - 1/2,
                      Uniform=function(n) runif(n, -1, 1),
                      Normal=rnorm, 
                      #Mixture=function(n) rnorm(n, -2) + rnorm(n, 2),
                      Exponential=function(n) rexp(n) - 1,
                      Lognormal=function(n) exp(rnorm(n, -1/2)) - 1
)
n.sample <- 12
n.sim <- 5e4
alpha.logit <- seq(0, 6, length.out=21); alpha <- signif(1 / (1 + exp(-alpha.logit)), 3)
#
# Normal CI.
#
CI <- function(x, Z=outer(c(1,-1), qt((1-alpha)/2, n.sample-1))) 
  mean(x) + Z * sd(x) / sqrt(length(x))
#
# The simulation.
#
#set.seed(17)
alpha.s <- paste0("alpha=", alpha)
sim <- lapply(distributions, function(dist) {
  x <- matrix(dist(n.sim*n.sample), n.sample)
  x.ci <- array(apply(x, 2, CI), c(2, length(alpha), n.sim),
                dimnames=list(Endpoint=c("Lower", "Upper"),
                              Alpha=alpha.s,
                              NULL))
  covers <- x.ci["Lower",,] * x.ci["Upper",,] <= 0
  rowMeans(covers)
})
(sim)
#
# The plots.
#
logit <- function(p) log(p/(1-p))
colors <- hsv((1:length(sim)-1)/length(sim), 0.8, 0.7)
par(mfrow=c(1,2))         
plot(range(alpha.logit), c(-2,1), type="n", 
     main="Confidence Interval Accuracies (Logit Scales)", cex.main=0.8,
     xlab="Logit(alpha)", 
     ylab="Logit(coverage) - Logit(alpha)")
abline(h=0, col="Gray", lwd=2)
legend("bottomleft", names(sim), col=colors, lwd=2, bty="n", cex=0.8)
for(i in 1:length(sim)) {
  coverage <- sim[[i]]
  lines(alpha.logit, logit(coverage) - alpha.logit, col=colors[i], lwd=2)
}

plot(range(alpha), c(-0.2, 0.05), type="n", 
     main="Raw Confidence Interval Accuracies", cex.main=0.8,
     xlab="alpha", 
     ylab="coverage-alpha")
abline(h=0, col="Gray", lwd=2)
legend("bottomleft", names(sim), col=colors, lwd=2, bty="n", cex=0.8)
for(i in 1:length(sim)) {
  coverage <- sim[[i]]
  lines(alpha, coverage - alpha, col=colors[i], lwd=2)
}
Whuber
źródło
14

To ciekawy pomysł i widzę, jak intuicyjnie jest przekonujący, ale myślę, że jest zbyt niejasny, aby był prawdziwy lub fałszywy. Oto kilka pytań, które chciałbym wyjaśnić komentatorowi:

  1. Przedział ufności dla czego (średnia, wariancja, coś innego)?
  2. Jak obliczono interwał (przy użyciu teorii dużej próbki, ładowania początkowego itp.)?
  3. W jakim sensie 50% CI byłby „bardziej solidny” lub „mniej wrażliwy” i do jakich założeń?

Mając różne odpowiedzi na te pytania, myślę, że moglibyśmy uczynić to stwierdzenie wyraźnie prawdziwym lub fałszywym.

Domyślam się, że komentator odnosi się do:

  • przedział ufności dla średniej obliczonej przy użyciu teorii dużej próbki,
  • gdzie rozkład danych nie jest zanieczyszczony wartościami odstającymi, ale pochodzi z rozkładu innego niż normalny, który jest podobny do normalnego pośrodku, ale nie z ogonów,
  • a idea polega na tym, że prawdziwy zasięg asymptotyczny jest bardziej zbliżony do zasięgu nominalnego.

Jeśli to właśnie ma na myśli komentator, w zależności od tego, jak ogony dystrybucji kompromitują się z ramionami, stwierdzenie może być prawdziwe.

Rozważmy na przykład wykres rozkładu normalnego i kilka niskich wartości df t-Dystrybucje CDF (skopiowane z Wikipedii ). Przedział ufności oparty na normalnym odΦ-1(.25) do Φ-1(.75) miałby prawie odpowiedni zasięg dla niskiej rozdzielczości ts, jeżeli reprezentowały one rzeczywiste rozkłady próbkowania spornej statystyki. W rzeczywistości wygląda na to, że 20% przedział ufności miałby prawie idealny zasięg, nawet w przypadku Cauchy'ego (trefa=1) dystrybucja:

wprowadź opis zdjęcia tutaj

gung - Przywróć Monikę
źródło