Jeśli przed wiarygodnym przedziałem czasowym jest płaski, czy 95% przedział ufności jest równy 95% przedziałowi wiarygodności?

31

Jestem bardzo nowy w statystykach bayesowskich i może to być głupie pytanie. Niemniej jednak:

Rozważ wiarygodny interwał z uprzednim, który określa jednolity rozkład. Na przykład od 0 do 1, gdzie 0 do 1 reprezentuje pełny zakres możliwych wartości efektu. Czy w takim przypadku 95% przedział wiarygodności byłby równy 95% przedziałowi ufności?

pomodoro
źródło

Odpowiedzi:

23

Wiele częstych przedziałów ufności (CI) opiera się na funkcji prawdopodobieństwa. Jeśli poprzednia dystrybucja jest naprawdę nieinformacyjna, to późniejszy bayesowski ma zasadniczo te same informacje, co funkcja prawdopodobieństwa. W związku z tym w praktyce przedział prawdopodobieństwa Bayesa (lub przedział wiarygodny) może być bardzo podobny liczbowo do częstego przedziału ufności. [Oczywiście, nawet jeśli pod względem liczbowym są podobne, istnieją filozoficzne różnice w interpretacji między oszacowaniami interwałowymi a bayesowskimi.]

Oto prosty przykład oszacowania prawdopodobieństwa sukcesu dwumianowego θ. Załóżmy, że mamy n=100 obserwacji (prób) z X=73 sukcesów.

Częstościowym: Tradycyjne Wald przedział zastosowania estymacja punktowa θ = X / n = 73 / 100 = 0,73. A 95% CI w postaci θ ± 1,96 θ^=X/n=73/100=0,73.

θ^±1,96θ^(1-θ^)n,
co oblicza do(0,643,0,817).
n = 100;  x = 73;  th.w = x/n;  pm = c(-1,1)
ci.w = th.w + pm*1.96*sqrt(th.w*(1-th.w)/n);  ci.w
[1] 0.6429839 0.8170161

Ta forma CI zakłada, że ​​odpowiednie rozkłady dwumianowe mogą być aproksymowane przez normalne, a margines błędu jest dobrze przybliżony przez W szczególności dla małych założenia te nie muszą być prawdziwe. [Przypadki, w których lub są szczególnie problematyczne.]θ(1-θ)/nn,X=0X=nθ^(1θ^)/n.n,X=0X=n

Wykazano, że Agresti-Coull CI ma bardziej dokładne prawdopodobieństwo pokrycia. Ten przedział „dodaje dwa sukcesy i dwa niepowodzenia” jako sposób na zbliżenie prawdopodobieństwa pokrycia do 95%. Zaczyna się od oszacowania punktowego gdzie ˜ n + 4. Następnie 95% CI ma postać ˜ θ ± 1,96 θ~=(X+2)/n~,n~+4. co oblicza do(0,612,0,792). Dlan>100i0,3<~θ<0,7,różnica pomiędzy tymi dwoma stylów przedziałów ufności jest prawie bez znaczenia.

θ~±1.96θ~(1θ~)n~,
(0.612,0.792).n>1000.3<θ~<0.7,
ci.a = th.a + pm*1.96*sqrt(th.a*(1-th.a)/n);  ci.a
[1] 0.6122700 0.7915761

Bayesian: Jednym z popularnych nieinformacyjnych uprzednich w tej sytuacji jest Funkcja prawdopodobieństwa jest proporcjonalna do θ x ( 1 - θ ) n - x . Mnożąc jądra wcześniejszego i prawdopodobieństwa, mamy jądro rozkładu tylnego B e t a ( x + 1 ,Beta(1,1)Unjafa(0,1).θx(1-θ)n-x.bmitza(x+1,n-x+1).

Następnie 95% oszacowanie przedziału Bayesa wykorzystuje kwantyle 0,025 i 0,975 rozkładu tylnego, aby uzyskać Gdy wcześniejszy rozkład jest „płaski” lub „nieinformacyjny”, różnica liczbowa między przedziałem prawdopodobieństwa Bayesa a przedziałem ufności Agresti-Coull jest niewielka.(0,635,0,807).

qbeta(c(.025, .975), 74, 28)
[1] 0.6353758 0.8072313

Uwagi: (a) W tej sytuacji niektórzy Bayesiści wolą nieinformacyjne wcześniejsze (b) W przypadku poziomów ufności innych niż 95%, Agresti-Coull CI stosuje nieco inne oszacowanie punktowe. (c) W przypadku danych innych niż dwumianowy może nie być wcześniej dostępnego „płaskiego”, ale można wybrać przeora z dużą wariancją (mała precyzja), który przenosi bardzo mało informacji. (d) Aby uzyskać więcej informacji na temat CI CI Agresti-Coull, wykresów prawdopodobieństwa pokrycia i niektórych odniesień, być może zobacz także te pytania i odpowiedzi .bmitza(.5,.5).

BruceET
źródło
10

Odpowiedź BruceET jest doskonała, ale dość długa, dlatego oto krótkie praktyczne podsumowanie:

  • jeśli przeor jest płaski, prawdopodobieństwo i tył mają ten sam kształt
  • odstępy nie zawsze są jednakowe, ponieważ są skonstruowane na różne sposoby. Standardowy bayesowski 90% CI pokrywa środkową 90% tylnej części ciała. Częstotliwość CI jest zwykle definiowana przez punktowe porównanie (patrz odpowiedź BruceET). W przypadku nieograniczonego parametru lokalizacji (np. Oszacowanie średniej rozkładu normalnego) różnica jest zwykle niewielka, ale jeśli oszacujesz parametr ograniczony (np. Średnią dwumianową) blisko granic (0/1), różnice mogą być znaczne.
  • oczywiście interpretacja też jest inna, ale interpretuję to pytanie głównie jako „kiedy wartości będą takie same?”
Florian Hartig
źródło
9

Chociaż można rozwiązać wcześniej, co da wiarygodny przedział równy częstemu przedziałowi ufności, ważne jest, aby zdać sobie sprawę z tego, jak wąski jest zakres zastosowania. Cała dyskusja zakłada, że ​​wielkość próby została ustalona i nie jest zmienną losową. Zakłada się, że dane były tylko jednym spojrzeniem, a wnioskowanie sekwencyjne nie zostało wykonane. Zakłada się, że istniała tylko jedna zmienna zależna i żadne inne parametry nie były interesujące. Tam, gdzie występują wielokrotności, przedziały bayesowskie i częste są rozbieżne (prawdopodobieństwa bayesowskie późniejsze są w trybie predykcyjnym w czasie do przodu i nie muszą rozważać „jak się tu dostaliśmy”, a zatem nie mają możliwości ani potrzeby dostosowywania się do wielu wyglądów). Dodatkowo,

Frank Harrell
źródło
Co to znaczy być w „trybie predykcyjnym czasu do przodu” i dlaczego nie musimy brać pod uwagę efektów selekcji lub krotności?
badmax,
1
Zobacz to . Pomyśl o prognozowaniu zwycięzcy meczu piłki nożnej w miarę postępu gry. Twoje obecne prawdopodobieństwo, że drużyna x wygra grę, może całkowicie zignorować twoje wcześniejsze prognozy. Ale jeśli pracujesz w trybie dla częstych, będziesz musiał wyobrazić sobie cały czas, gdy twoja drużyna przegrywa grę i weź pod uwagę ekstremalne wyniki we wszystkich punktach gry, w których zwykle robisz prognozy. Wielokrotności wynikają z prawdopodobieństwa, że ​​dane są ekstremalne, a to uwzględnia tylko częste obliczenia.
Frank Harrell,
6

Prawdopodobieństwo Bayesian z płaskim przeorem

Funkcja prawdopodobieństwa i związany z nią przedział ufności nie są takie same (pojęcie), jak prawdopodobieństwo bayesowskie a posteriori skonstruowane za pomocą uprzedniego, który określa rozkład równomierny.

W części 1 i 2 tej odpowiedzi argumentowane jest, dlaczego prawdopodobieństwo nie powinno być postrzegane jako tylne prawdopodobieństwo Bayesa oparte na wcześniejszym płaskim.

W części 3 podano przykład, w którym przedział ufności i przedział wiarygodności są bardzo różne. Wskazano również, w jaki sposób powstaje ta rozbieżność.

1 Inne zachowanie podczas transformacji zmiennej

Prawdopodobieństwa przekształcają się w określony sposób . Znając rozkład rozkładu prawdopodobieństwa fax(x) znamy również rozkład faξ(ξ) dla zmiennej ξ zdefiniowanej przez dowolną funkcję x=χ(ξ) , zgodnie z regułą transformacji:

faξ(ξ)=fax(χ(ξ))reχreξreξ

Jeśli transformujesz zmienną, wówczas średnia i tryb mogą się różnić z powodu tej zmiany funkcji rozkładu. Oznacza to x¯χ(ξ¯) i xmaxfa(x)χ(ξmaxfa(ξ)) .

Funkcja wiarygodności nie przekształca się w ten sposób . Jest to kontrast między funkcją prawdopodobieństwa a prawdopodobieństwem późniejszym. Funkcja (maksimum) prawdopodobieństwa pozostaje taka sama po przekształceniu zmiennej.

L.ξ(ξ)=L.x(χ(ξ))

Związane z:

  • Mieszkanie przeora jest niejednoznaczne . To zależy od formy konkretnej statystyki.

    Na przykład, jeżeli X jest jednolita rozdzielone (na przykład U(0,1)) , a X2) jest nie zmienna jednolity rozdzielone.

    Nie ma jednego mieszkania przed którym można by powiązać funkcję Prawdopodobieństwa. Jest inaczej, gdy definiujesz mieszkanie przed X lub jakąś zmienioną zmienną, taką jak X2) . Dla prawdopodobieństwa ta zależność nie istnieje.

  • Granice prawdopodobieństwa (przedziały wiarygodności) będą się różnić po przekształceniu zmiennej (w przypadku funkcji wiarygodności tak nie jest) . Np. Dla niektórych parametrów za i transformacji monotonicznej fa(za) (np. Logarytm) otrzymujesz równoważne przedziały prawdopodobieństwa

    zamin<za<zamaxfa(zamin)<fa(za)<fa(zamax)

2 Inna koncepcja: przedziały ufności są niezależne od wcześniejszych

Xθθθ

θxjaX

  • θ
  • Kontrastuje to z funkcją prawdopodobieństwa i przedziałem ufności, które są niezależne od wcześniejszego rozkładu.

Przedział ufności nie wykorzystuje informacji o przejęciu, podobnie jak przedział wiarygodności (zaufanie nie jest prawdopodobieństwem).

x

W przypadku wiarygodnego okresu koncepcja ta (x

3 Różnica między zaufaniem a wiarygodnymi przedziałami

λx¯n

L.(λ,x¯,n)=nn(n-1)!xn-1λnmi-λnx¯

nλx¯x¯+rex

λ00101

n=4

różnica między przedziałami wiarygodności i pewności

Granice są tworzone, uzyskując (jednowymiarową) funkcję rozkładu skumulowanego. Ale integracja / kumulacja może odbywać się w dwóch kierunkach .

Różnica między interwałami występuje, ponieważ obszary 5% są tworzone na różne sposoby.

  • λx¯λ

    λx¯

  • λx¯

    x¯λλλ

    x¯λ

Przypadek, w którym przedział ufności i przedział wiarygodności (oparty na niewłaściwym wcześniejszym czasie) pokrywają się, służy do oszacowania średniej zmiennej rozproszonej Gaussa (rozkład jest zilustrowany tutaj: https://stats.stackexchange.com/a/351333/164061 ).

Oczywisty przypadek, w którym przedział ufności i przedział wiarygodności nie pokrywają się, jest zilustrowany tutaj ( https://stats.stackexchange.com/a/369909/164061 ). Przedział ufności dla tego przypadku może mieć jedną lub nawet obie (górne / dolne) granice w nieskończoności.

Sextus Empiricus
źródło
2
Nie mów o tym, czy wiarygodny przedział zawiera prawdziwy parametr. Wiarygodnym interwałem jest stwierdzenie prawdopodobieństwa. A x% dla przedziału ufności musi wskazywać, co oznacza replikacja, tj. Jakie są „przypadki”.
Frank Harrell,
bmitza(.5,.5)
Nie sądzę, że powiedziałem, że przy płaskim uprzedzeniu prawdopodobieństwo jest późniejsze, chociaż może tak być. Zgodnie z pisaniem odpowiedzi na poziomie wiedzy specjalistycznej OP, starałem się ostrożnie napisać pierwszy akapit mojej odpowiedzi. Czy uważasz, że to, co powiedziałem, jest w rzeczywistości złe, czy może uważasz, że może być źle interpretowane?
BruceET,
1

Zasadniczo nie jest to prawdą, ale może się tak wydawać z powodu najczęściej rozważanych przypadków specjalnych.

X,Yja.ja.reMundur[θ-1/2),θ+1/2)].(min{X,Y},max{X,Y})50%θ,50%

Technika warunkowania Fishera w statystyce pomocniczej daje w tym przypadku przedział ufności, który pokrywa się z tym wiarygodnym przedziałem.

Michael Hardy
źródło
0

Z mojej lektury pomyślałem, że to stwierdzenie jest prawdziwe asymptotycznie, tj. Dla dużej wielkości próby i jeśli ktoś używa nieinformacyjnego uprzedniego.

Prosty przykład liczbowy wydaje się to potwierdzać - 90% przedziały maksymalnego prawdopodobieństwa profilu i 90% wiarygodne przedziały dwumianowego GLM ML i dwumianowego GLM Bayesa są w rzeczywistości praktycznie identyczne n=1000, chociaż rozbieżność byłaby większa dla małych n:

# simulate some data
set.seed(123)
n = 1000                     # sample size
x1 = rnorm(n)                # two continuous covariates 
x2 = rnorm(n)
z = 0.1 + 2*x1 + 3*x2        # predicted values on logit scale
y = rbinom(n,1,plogis(z))    # bernoulli response variable
d = data.frame(y=y, x1=x1, x2=x2)

# fit a regular GLM and calculate 90% confidence intervals
glmfit = glm(y ~ x1 + x2, family = "binomial", data = d)
library(MASS)
# coefficients and 90% profile confidence intervals :
round(cbind(coef(glmfit), confint(glmfit, level=0.9)), 2) 
#                      5 % 95 %
#   (Intercept) 0.00 -0.18 0.17
# x1            2.04  1.77 2.34
# x2            3.42  3.05 3.81

# fit a Bayesian GLM using rstanarm
library(rstanarm)
t_prior = student_t(df = 3, location = 0, scale = 100) # we set scale to large value to specify an uninformative prior
bfit1 = stan_glm(y ~ x1 + x2, data = d, 
                 family = binomial(link = "logit"), 
                 prior = t_prior, prior_intercept = t_prior,  
                 chains = 1, cores = 4, seed = 123, iter = 10000)
# coefficients and 90% credible intervals :
round(cbind(coef(bfit1), posterior_interval(bfit1, prob = 0.9)), 2) 
#                        5%  95%
#   (Intercept) -0.01 -0.18 0.17
# x1             2.06  1.79 2.37
# x2             3.45  3.07 3.85


# fit a Bayesian GLM using brms
library(brms)
priors = c(
  prior(student_t(3, 0, 100), class = "Intercept"),
  prior(student_t(3, 0, 100), class = "b")
)
bfit2 = brm(
  y ~ x1 + x2,
  data = d,
  prior = priors,
  family = "bernoulli",
  seed = 123 
) 
# coefficients and 90% credible intervals :
summary(bfit2, prob=0.9)
# Population-Level Effects: 
#           Estimate Est.Error l-90% CI u-90% CI Eff.Sample Rhat
# Intercept    -0.01      0.11    -0.18     0.18       2595 1.00
# x1            2.06      0.17     1.79     2.35       2492 1.00
# x2            3.45      0.23     3.07     3.83       2594 1.00


# fit a Bayesian GLM using arm
library(arm)
# we set prior.scale to Inf to specify an uninformative prior
bfit3 = bayesglm(y ~ x1 + x2, family = "binomial", data = d, prior.scale = Inf) 
sims = coef(sim(bfit3, n.sims=1000000))
# coefficients and 90% credible intervals :
round(cbind(coef(bfit3), t(apply(sims, 2, function (col) quantile(col,c(.05, .95))))),2)
#                       5%  95%
#   (Intercept) 0.00 -0.18 0.17
# x1            2.04  1.76 2.33
# x2            3.42  3.03 3.80

Jak widać w powyższym przykładzie, dla n=100090% przedziałów ufności profilu dwumianowego GLM są praktycznie identyczne z 90% wiarygodnymi przedziałami dla dwumianowego GLM Bayesa (różnica jest również w granicach stosowania różnych nasion i różnych liczby iteracji w atakach bayesowskich, a dokładnej równoważności nie można również uzyskać, ponieważ podanie 100% nieinformacyjnego uprzedniego nie jest również możliwe za pomocą rstanarmlub brms).

Tom Wenseleers
źródło