Łączenie informacji z wielu badań w celu oszacowania średniej i wariancji normalnie rozłożonych danych - podejścia bayesowskie a metaanalityczne

21

Przejrzałem zestaw artykułów, z których każdy podaje obserwowaną średnią i SD pomiaru w odpowiedniej próbce o znanej wielkości, n . Chcę jak najlepiej zgadnąć, jaki jest prawdopodobny rozkład tej samej miary w nowym opracowaniu, które projektuję, i ile niepewności jest w tym przypuszczeniu. Z przyjemnością przyjmuję X N ( μ , σ 2 ).XnXN.(μ,σ2)

Moją pierwszą myślą była metaanaliza, ale zwykle stosowane modele koncentrują się na szacunkach punktowych i odpowiadających im przedziałach ufności. Chciałbym jednak powiedzieć coś o pełnym rozkładzie , co w tym przypadku również zawiera zgadywanie o wariancji, σ 2 . Xσ2)

Czytałem o możliwych podejściach Bayeisana do oszacowania pełnego zestawu parametrów danego rozkładu w świetle wcześniejszej wiedzy. Zasadniczo ma to dla mnie większy sens, ale nie mam doświadczenia w analizie Bayesa. Wydaje się to również prostym, stosunkowo prostym problemem, na którym można obciąć zęby.

1) Biorąc pod uwagę mój problem, które podejście jest najbardziej sensowne i dlaczego? Metaanaliza czy podejście bayesowskie?

2) Jeśli uważasz, że podejście bayesowskie jest najlepsze, czy możesz wskazać mi sposób na wdrożenie tego (najlepiej w R)?

Powiązane pytanie

EDYCJE:

Próbowałem to wypracować w sposób, który uważam za „prosty” sposób bayesowski.

Jak powiedziałem powyżej, interesuje mnie nie tylko oszacowana średnia, , ale także wariancja, σ 2 , w świetle wcześniejszych informacji, tj. P ( μ , σ 2 | Y )μσ2)P.(μ,σ2)|Y)

Znów nic nie wiem o bayeianizmie w praktyce, ale nie trzeba było długo czekać, aby ustalić, że tylny rozkład normalny o nieznanej średniej i wariancji ma rozwiązanie w postaci zamkniętej poprzez sprzężenie z rozkładem normalnej odwrotności gamma.

Problem został przeformułowany jako .P.(μ,σ2)|Y)=P.(μ|σ2),Y)P.(σ2)|Y)

jest szacowane z rozkładem normalnym; P ( σ 2 | Y ) z odwrotnym rozkładem gamma.P.(μ|σ2),Y)P.(σ2)|Y)

Minęło trochę czasu, zanim udało mi się to obejść, ale z tych linków ( 1 , 2 ) mogłem, jak sądzę, posortować, jak to zrobić w R.

Zacząłem od ramki danych złożonej z wiersza dla każdego z 33 badań / próbek oraz kolumn dla średniej, wariancji i wielkości próby. Jako moją wcześniejszą informację wykorzystałem średnią, wariancję i wielkość próby z pierwszego badania w wierszu 1. Następnie zaktualizowałem to o informacje z następnego badania, obliczyłem odpowiednie parametry i pobrałem próbkę z normalnej-odwrotnej gamma, aby uzyskać rozkład i σ 2 . Powtarza się to do momentu włączenia wszystkich 33 badań.μσ2)

# Loop start values values

  i <- 2
  k <- 1

# Results go here

  muL      <- list()  # mean of the estimated mean distribution
  varL     <- list()  # variance of the estimated mean distribution
  nL       <- list()  # sample size
  eVarL    <- list()  # mean of the estimated variance distribution
  distL    <- list()  # sampling 10k times from the mean and variance distributions

# Priors, taken from the study in row 1 of the data frame

  muPrior  <- bayesDf[1, 14]    # Starting mean
  nPrior   <- bayesDf[1, 10]    # Starting sample size
  varPrior <- bayesDf[1, 16]^2  # Starting variance

  for (i in 2:nrow(bayesDf)){

# "New" Data, Sufficient Statistics needed for parameter estimation

    muSamp    <- bayesDf[i, 14]          # mean
    nSamp     <- bayesDf[i, 10]          # sample size
    sumSqSamp <- bayesDf[i, 16]^2*(nSamp-1)  # sum of squares (variance * (n-1))

# Posteriors

    nPost   <- nPrior + nSamp
    muPost  <- (nPrior * muPrior + nSamp * muSamp) / (nPost)  
    sPost   <- (nPrior * varPrior) + 
                sumSqSamp + 
               ((nPrior * nSamp) / (nPost)) * ((muSamp - muPrior)^2)
    varPost <- sPost/nPost
    bPost   <- (nPrior * varPrior) + 
                sumSqSamp + 
               (nPrior * nSamp /  (nPost)) * ((muPrior - muSamp)^2)
# Update 

    muPrior   <- muPost
    nPrior    <- nPost
    varPrior  <- varPost

# Store

    muL[[i]]   <-  muPost
    varL[[i]]  <-  varPost
    nL[[i]]    <-  nPost
    eVarL[[i]] <- (bPost/2) / ((nPost/2) - 1)

# Sample

    muDistL  <- list()  
    varDistL <- list()

    for (j in 1:10000){
      varDistL[[j]] <- 1/rgamma(1, nPost/2, bPost/2)
      v             <- 1/rgamma(1, nPost/2, bPost/2)
      muDistL[[j]]  <- rnorm(1, muPost, v/nPost)
    }

# Store 

    varDist    <- do.call(rbind, varDistL)
    muDist     <- do.call(rbind, muDistL)
    dist       <- as.data.frame(cbind(varDist, muDist))
    distL[[k]] <- dist

# Advance

    k <- k+1 
    i <- i+1

  }

  var     <- do.call(rbind, varL)
  mu      <- do.call(rbind, muL)
  n       <- do.call(rbind, nL)
  eVar    <- do.call(rbind, eVarL)
  normsDf <- as.data.frame(cbind(mu, var, eVar, n)) 
  colnames(seDf) <- c("mu", "var", "evar", "n")
  normsDf$order <- c(1:33)

mi(μ)mi(σ2))

wprowadź opis zdjęcia tutaj

Oto desnities oparte na próbkowaniu z szacowanych rozkładów dla średniej i wariancji przy każdej aktualizacji.

wprowadź opis zdjęcia tutaj

wprowadź opis zdjęcia tutaj

Chciałem tylko dodać to na wypadek, gdyby było to pomocne dla kogoś innego, aby znający mogli mi powiedzieć, czy to było rozsądne, wadliwe itp.

DL Dahly
źródło

Odpowiedzi:

11

Te dwa podejścia (metaanaliza i aktualizacja Bayesa) nie są tak naprawdę odrębne. Modele metaanalityczne są często przedstawiane jako modele bayesowskie, ponieważ pomysł dodania dowodów do wcześniejszej wiedzy (być może dość niejasnej) na temat danego zjawiska nadaje się naturalnie do metaanalizy. Artykuł opisujący to połączenie to:

Brannick, MT (2001). Implikacje empirycznej metaanalizy Bayesa do walidacji testu. Journal of Applied Psychology, 86 (3) , 468–480.

(autor używa korelacji jako miary wyniku w metaanalizie, ale zasada jest taka sama niezależnie od miary).

Bardziej ogólny artykuł na temat bayesowskich metod metaanalizy to:

Sutton, AJ i Abrams, KR (2001). Metody bayesowskie w metaanalizie i syntezie dowodów. Metody statystyczne w badaniach medycznych, 10 (4) , 277-303.

Wydaje się, że po tym (oprócz niektórych łącznych szacunków) jest przedział przewidywania / wiarygodności, który opisuje, gdzie w przyszłym badaniu prawdopodobnie spadnie prawdziwy wynik / efekt. Taki odstęp można uzyskać z „tradycyjnej” metaanalizy lub z bayesowskiego modelu metaanalitycznego. Tradycyjne podejście opisano na przykład w:

Riley, RD, Higgins, JP i Deeks, JJ (2011). Interpretacja metaanaliz losowych efektów. British Medical Journal, 342 , d549.

θiθiiθi

Wolfgang
źródło
3
Oprócz tego wiele metafizjologii zostało zawartych w przeorze bayesowskim.
Fomite
2

yjajotN.(μ,σ2))ja=1,...njotjot=1,...,K.μ

μ^=1N.jot=1K.njoty¯jot,N.=jot=1K.njot.
σσ2)
σ~2)=1N.-K.jot=1K.(njot-1)sjot2)
N.K.
Pusto
źródło