Jaka część powtórzeń eksperymentów będzie miała wielkość efektu w 95% przedziale ufności pierwszego eksperymentu?

Trzymajmy się idealnej sytuacji z losowym próbkowaniem, populacjami Gaussa, równymi wariancjami, brakiem hakowania P itp.

Krok 1. Przeprowadzasz eksperyment, powiedzmy, porównując dwie średnie próby i obliczasz 95% przedział ufności dla różnicy między dwoma średnimi populacji.

Krok 2. Przeprowadzasz o wiele więcej eksperymentów (tysiące). Różnica między średnimi będzie się różnić w zależności od eksperymentu z powodu losowego próbkowania.

Pytanie: Jaka część różnicy między średnimi z kolekcji eksperymentów w kroku 2 będzie mieściła się w przedziale ufności w kroku 1?

Na to nie można odpowiedzieć. Wszystko zależy od tego, co wydarzyło się w kroku 1. Jeśli eksperyment z kroku 1 był bardzo nietypowy, odpowiedź na pytanie może być bardzo niska.

Wyobraź sobie więc, że oba kroki są powtarzane wiele razy (z krokiem powtórzonym wiele razy). Sądzę, że teraz powinno być możliwe wymyślenie, która część powtarzalnych eksperymentów ma średnio wielkość efektu w 95% przedziale ufności pierwszego eksperymentu.

Wydaje się, że należy zrozumieć odpowiedź na te pytania, aby ocenić odtwarzalność badań, obecnie bardzo gorący obszar.

confidence-interval replicability Harvey Motulsky
źródło

Dla każdego oryginału (krok 1) eksperymenty

, określa

jako frakcję kolejnym etapie (2) wynika, że wyniki przedstawiła w przedziale ufności pierwotnego wyniku. Chcesz obliczyć rozkład empiryczny

i

$i$

x_{i}

$x_i$

x

$x$

Matthew Gunn,

Tak, rozumiesz, o co proszę

Harvey Motulsky,

@MatthewGunn zapytał, czy chcesz empiryczny rozkład „frakcji przechwytywania” do przyszłych obserwacji. W twoim poście zapytano: „myślę, że powinno być możliwe wymyślenie, jaka część przeciętnie powtarzanych eksperymentów ma wielkość efektu w 95% przedziale ufności pierwszego eksperymentu” . To nie jest rozkład, ale oczekiwana wartość (średnia).

Analiza Whubera jest świetna, ale jeśli potrzebujesz cytatu, oto artykuł szczegółowo omawiający to pytanie: Cumming i Maillardet, 2006, Interwały zaufania i replikacja: Gdzie spadnie następny średni? . Nazywają to przechwytywaniem procentu przedziału ufności.

ameba mówi Przywróć Monikę

Odpowiedzi:

Analiza

Ponieważ jest to pytanie koncepcyjne, dla uproszczenia rozważmy sytuację, w której przedział ufności $1-\alpha$ jest konstruowane dla średniejprzy użyciu losowej próbkio wielkościa druga losowa próbkajest pobierana o wielkości, wszystkie z tego samegorozkładunormalnego. (Jeśli chcesz, możesz zastąpićs wartościami zrozkładuStudentastopni swobody; poniższa analiza nie zmieni się.)

[{\bar{x}}^{(1)} + Z_{α / 2} s^{(1)} / \sqrt{n}, {\bar{x}}^{(1)} + Z_{1 - α / 2} s^{(1)} / \sqrt{n}]

$\left[\bar x^{(1)} + Z_{\alpha/2} s^{(1)}/\sqrt{n}, \bar x^{(1)} + Z_{1-\alpha/2} s^{(1)}/\sqrt{n}\right]$

μ

$\mu$

x^{(1)}

$x^{(1)}$

n

$n$

x^{(2)}

$x^{(2)}$

m

$m$

(μ, σ^{2})

$(\mu,\sigma^2)$

Z

$Z$

t

$t$

n - 1

$n-1$

Szansa, że średnia z drugiej próbki mieści się w CI określonym przez pierwszą, wynosi

Pr ({\bar{x}}^{(1)} + \frac{Z_{α / 2}}{\sqrt{n}} s^{(1)} \leq {\bar{x}}^{(2)} \leq {\bar{x}}^{(1)} + \frac{Z_{1 - α / 2}}{\sqrt{n}} s^{(1)}) = Pr (\frac{Z_{α / 2}}{\sqrt{n}} s^{(1)} \leq {\bar{x}}^{(2)} - {\bar{x}}^{(1)} \leq \frac{Z_{1 - α / 2}}{\sqrt{n}} s^{(1)}) .

$\Pr\left(\bar x^{(1)} + \frac{Z_{\alpha/2}}{\sqrt{n}} s^{(1)} \le \bar x^{(2)} \le \bar x^{(1)} + \frac{Z_{1-\alpha/2}}{\sqrt{n}} s^{(1)}\right) =\Pr\left(\frac{Z_{\alpha/2}}{\sqrt{n}} s^{(1)} \le \bar x^{(2)}-\bar x^{(1)} \le \frac{Z_{1-\alpha/2}}{\sqrt{n}} s^{(1)}\right).$

Ponieważ średnia z pierwszej próbki jest niezależna od odchylenia standardowego pierwszej próbki (wymaga to normalności), a druga próbka jest niezależna od pierwszej, różnica w próbce oznacza jest niezależny od . Ponadto dla tego symetrycznego przedziału . Dlatego pisząc dla zmiennej losowej i podnosząc do kwadratu obie nierówności, rozważane prawdopodobieństwo jest takie samo jak $\bar x^{(1)}$ $s^{(1)}$ $U = \bar x^{(2)} - \bar x^{(1)}$ $s^{(1)}$ $Z_{\alpha/2}=-Z_{1-\alpha/2}$ $S$ $s^{(1)}$

Pr (U^{2} \leq {(\frac{Z_{1 - α / 2}}{\sqrt{n}})}^{2} S^{2}) = Pr (\frac{U^{2}}{S^{2}} \leq {(\frac{Z_{1 - α / 2}}{\sqrt{n}})}^{2}) .

$\Pr\left(U^2 \le \left(\frac{Z_{1-\alpha/2}}{\sqrt{n}}\right)^2 S^2\right)= \Pr\left(\frac{U^2}{S^2} \le \left(\frac{Z_{1-\alpha/2}}{\sqrt{n}}\right)^2\right).$

Prawa oczekiwania sugerują, że ma średnią i wariancję $U$ $0$

Var (U) = Var ({\bar{x}}^{(2)} - {\bar{x}}^{(1)}) = σ^{2} (\frac{1}{m} + \frac{1}{n}) .

$\operatorname{Var}(U) = \operatorname{Var}\left(\bar x^{(2)} - \bar x^{(1)}\right) = \sigma^2\left(\frac{1}{m} + \frac{1}{n}\right).$

Ponieważ jest liniową kombinacją zmiennych normalnych, ma również rozkład normalny. Dlatego to razy zmienna . Wiedzieliśmy już, że jest razy zmienną . W konsekwencji jest razy zmienna o rozkładzie . Wymagane prawdopodobieństwo podaje rozkład F jako $U$ $U^2$ $\sigma^2\left(\frac{1}{n} + \frac{1}{m}\right)$ $\chi^2(1)$ $S^2$ $\sigma^2/n$ $\chi^2(n-1)$ $U^2/S^2$ $1/n + 1/m$ $F(1,n-1)$

\begin{matrix} (1) & F_{1, n - 1} (\frac{Z_{1 - α / 2}^{2}}{1 + n / m}) . \end{matrix}

$F_{1,n-1}\left(\frac{Z_{1-\alpha/2}^2}{1 + n/m}\right).\tag{1}$

Dyskusja

Ciekawym przypadkiem jest sytuacja, gdy druga próbka ma taki sam rozmiar jak pierwsza, tak że i tylko i określają prawdopodobieństwo. Oto wartości wykreślone względem dla . $n/m=1$ $n$ $\alpha$ $(1)$ $\alpha$ $n=2,5,20,50$

Wykresy rosną do wartości granicznej przy każdym wraz ze wzrostem . Tradycyjny rozmiar testu jest oznaczony pionową szarą linią. W przypadku dużych wartości szansa na ograniczenie dla wynosi około . $\alpha$ $n$ $\alpha=0.05$ $n=m$ $\alpha=0.05$ $85\%$

Dzięki zrozumieniu tego limitu przejrzymy szczegóły dotyczące małych rozmiarów próbek i lepiej zrozumiemy sedno sprawy. Gdy rośnie, rozkład zbliża się do rozkładu . Pod względem standardowego rozkładu normalnego prawdopodobieństwo następnie przybliżone $n=m$ $F$ $\chi^2(1)$ $\Phi$ $(1)$

Φ (\frac{Z_{1 - α / 2}}{\sqrt{2}}) - Φ (\frac{Z_{α / 2}}{\sqrt{2}}) = 1 - 2 Φ (\frac{Z_{α / 2}}{\sqrt{2}}) .

$\Phi\left(\frac{Z_{1-\alpha/2}}{\sqrt{2}}\right) - \Phi\left(\frac{Z_{\alpha/2}}{\sqrt{2}}\right) = 1 - 2\Phi\left(\frac{Z_{\alpha/2}}{\sqrt{2}}\right) .$

Na przykład, przy , i . W konsekwencji wartość graniczna uzyskana przez krzywe przy wraz ze wzrostem będzie wynosić . Widać, że zostało prawie osiągnięte dla (gdzie szansa wynosi ). $\alpha=0.05$ $Z_{\alpha/2}/\sqrt{2} \approx -1.96/1.41 \approx -1.386$ $\Phi(-1.386) \approx 0.083$ $\alpha=0.05$ $n$ $1 - 2(0.083) = 1 - 0.166=0.834$ $n=50$ $0.8383\ldots$

Dla małych związek między a prawdopodobieństwem uzupełniającym - ryzyko, że CI nie obejmuje drugiego środka - jest prawie idealnie prawem mocy. $\alpha$ $\alpha$ Innym sposobem na wyrażenie tego jest to, że prawdopodobieństwo komplementarności logarytmu jest prawie liniową funkcją . Relacja graniczna jest w przybliżeniu $\log\alpha$

\log (2 Φ (\frac{Z_{α / 2}}{\sqrt{2}})) \approx - 1.79712 + 0.557203 \log (20 α) + 0.00657704 (\log (20 α))^{2} + \dots

$\log\left(2\Phi\left(\frac{Z_{\alpha/2}}{\sqrt{2}}\right)\right) \approx -1.79712 + 0.557203\log(20 \alpha) + 0.00657704 (\log(20 \alpha))^2 + \cdots$

Innymi słowy, dla dużych i gdziekolwiek w pobliżu tradycyjnej wartości , będzie bliskie $n=m$ $\alpha$ $0.05$ $(1)$

1 - 0.166 (20 α)^{0.557} .

$1 - 0.166 (20\alpha)^{0.557}.$

(To bardzo przypomina mi analizę nakładających się przedziałów ufności, które opublikowałem na stronie /stats//a/18259/919 . Rzeczywiście, magiczna moc, , jest bardzo prawie odwrotna do magicznej mocy tutaj . W tym momencie powinieneś być w stanie ponownie zinterpretować tę analizę pod względem odtwarzalności eksperymentów). $1.91$ $0.557$

Wyniki eksperymentalne

Wyniki te są potwierdzone za pomocą prostej symulacji. Poniższy Rkod zwraca częstotliwość pokrycia, szansę obliczoną za pomocą oraz wynik Z do oceny, jak bardzo się różnią. Z-score są zazwyczaj mniejsze niż , niezależnie od (lub nawet czy obliczone jest lub CI), co wskazuje na poprawność wzoru . $(1)$ $2$ $n, m, \mu, \sigma, \alpha$ $Z$ $t$ $(1)$

n <- 3      # First sample size
m <- 2      # Second sample size
sigma <- 2 
mu <- -4
alpha <- 0.05
n.sim <- 1e4
#
# Compute the multiplier.
#
Z <- qnorm(alpha/2)
#Z <- qt(alpha/2, df=n-1) # Use this for a Student t C.I. instead.
#
# Draw the first sample and compute the CI as [l.1, u.1].
#
x.1 <- matrix(rnorm(n*n.sim, mu, sigma), nrow=n)
x.1.bar <- colMeans(x.1)
s.1 <- apply(x.1, 2, sd)
l.1 <- x.1.bar + Z * s.1 / sqrt(n)
u.1 <- x.1.bar - Z * s.1 / sqrt(n)
#
# Draw the second sample and compute the mean as x.2.
#
x.2 <- colMeans(matrix(rnorm(m*n.sim, mu, sigma), nrow=m))
#
# Compare the second sample means to the CIs.
#
covers <- l.1 <= x.2 & x.2 <= u.1
#
# Compute the theoretical chance and compare it to the simulated frequency.
#
f <- pf(Z^2 / ((n * (1/n + 1/m))), 1, n-1)
m.covers <- mean(covers)
(c(Simulated=m.covers, Theoretical=f, Z=(m.covers - f)/sd(covers) * sqrt(length(covers))))

Whuber
źródło

Mówisz, że użycie t zamiast z nie zrobi dużej różnicy. Wierzę, że jeszcze nie sprawdziłeś. Przy małej wielkości próby dwie wartości krytyczne mogą się znacznie różnić, a rozkład t jest poprawnym sposobem obliczenia CI. Dlaczego wolisz używać Z?

Harvey Motulsky

Jest to wyłącznie przykładowe, a jest prostsze. Kiedy używasz , ciekawe jest, że krzywe na figurze zaczynają się wysoko i schodzą do granicy. W szczególności szansa na odtworzenie znaczącego wyniku jest wtedy znacznie większa dla małych próbek niż dla dużych! Zauważ, że nie ma nic do sprawdzenia, ponieważ możesz interpretować jako punkt procentowy odpowiedniej dystrybucji t Studenta (lub dowolnej innej dystrybucji, którą zechcesz nazwać). Nic się nie zmienia w analizie. Jeśli chcesz zobaczyć poszczególne efekty, odkomentuj wiersz w kodzie.

Z

$Z$

t

$t$

Z_{α}

$Z_{\alpha}$ qt

whuber

+1. To świetna analiza (a twoja odpowiedź ma zdecydowanie za mało głosów pozytywnych na to, co to jest). Właśnie natknąłem się na artykuł szczegółowo omawiający to pytanie i pomyślałem, że możesz być zainteresowany: Cumming i Maillardet, 2006, Interwały zaufania i replikacja: Gdzie będzie następny średni upadek? . Nazywają to przechwytywaniem procentu przedziału ufności.

ameba mówi Przywróć Monikę

@Amoeba Dziękujemy za odniesienie. Szczególnie doceniam jeden ogólny wniosek w tym zakresie: „Replikacja ma kluczowe znaczenie dla metody naukowej, a badacze nie powinni przymykać na nią oka tylko dlatego, że uwidacznia ona nieodłączną niepewność pojedynczego badania”.

whuber

Aktualizacja: Dzięki trwającej dyskusji w wątku siostrzanym Teraz wierzę moje rozumowanie w powyższym komentarzu był nie prawidłowe. 95% CI ma 83% „przechwytywania replikacji”, ale jest to stwierdzenie dotyczące powtarzania próbkowania i nie może być interpretowane jako dające prawdopodobieństwo uwarunkowane jednym konkretnym przedziałem ufności, przynajmniej nie bez dalszych założeń. (Być może zarówno ten, jak i poprzednie komentarze powinny być lepiej usunięte, aby nie mylić dalszych czytelników.)

mówi ameba Przywróć Monikę

[Edytowane, aby naprawić błąd, który wskazał Whuber.]

Zmieniłem kod R @ Whubera, aby użyć rozkładu t i pokrycia powierzchni w zależności od wielkości próbki. Wyniki są poniżej. Przy dużej wielkości próbki wyniki są oczywiście zgodne z WHuberem.

A oto dostosowany kod R, uruchamiany dwukrotnie z ustawieniem alfa na 0,01 lub 0,05.

sigma <- 2 
mu <- -4
alpha <- 0.01
n.sim <- 1e5
#
# Compute the multiplier.

for (n in c(3,5,7,10,15,20,30,50,100,250,500,1000))
{
   T <- qt(alpha/2, df=n-1)     
# Draw the first sample and compute the CI as [l.1, u.1].
#
x.1 <- matrix(rnorm(n*n.sim, mu, sigma), nrow=n)
x.1.bar <- colMeans(x.1)
s.1 <- apply(x.1, 2, sd)
l.1 <- x.1.bar + T * s.1 / sqrt(n)
u.1 <- x.1.bar - T * s.1 / sqrt(n)
#
# Draw the second sample and compute the mean as x.2.
#
x.2 <- colMeans(matrix(rnorm(n*n.sim, mu, sigma), nrow=n))
#
# Compare the second sample means to the CIs.
#
covers <- l.1 <= x.2 & x.2 <= u.1
#
Coverage=mean(covers)

print (Coverage)

}

A oto plik GraphPad Prism , który utworzył wykres.

Harvey Motulsky
źródło

Wierzę, że twoje wykresy nie używają rozkładu t , z powodu błędu: ustawiłeś wartość Tpoza pętlą! Jeśli chcesz zobaczyć poprawne krzywe, po prostu wykreśl je bezpośrednio, korzystając z teoretycznego wyniku w mojej odpowiedzi, podanego na końcu mojego Rkodu (zamiast polegać na symulowanych wynikach):

curve(pf(qt(.975, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), 2, 1000, log="x", ylim=c(.8,1), col="Blue"); curve(pf(qt(.995, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), add=TRUE, col="Red")

whuber

@whuber. Yikes! Oczywiście masz rację. Żenujący. Naprawiłem to. Jak wskazałeś, zasięg jest większy w przypadku małych próbek. (Naprawiłem symulacje i nie wypróbowałem twojej teoretycznej funkcji.)

Harvey Motulsky,

Cieszę się, że to naprawiłeś, ponieważ to bardzo interesujące, jak wysokie jest pokrycie dla małych rozmiarów próbek. Możemy również odwrócić twoje pytanie i użyć wzoru, aby ustalić, jakiej wartości użyć, jeśli chcemy zapewnić (przed wykonaniem jakichkolwiek eksperymentów), z prawdopodobieństwem (powiedzmy), że średnia z drugi eksperyment mieściłby się w dwustronnym przedziale ufności określonym na podstawie drugiego. Robienie tego, jako rutynowa praktyka, może być jednym z intrygujących sposobów odpowiedzi na krytykę NHST.

Z_{α / 2}

$Z_{\alpha/2}$

p = 0.95

$p=0.95$

1 - α

$1-\alpha$

whuber

@ whuber Myślę, że następnym krokiem jest przyjrzenie się rozkładowi zasięgu. Do tej pory mamy średni zasięg (średnia z wielu pierwszych eksperymentów, ze średnią z wielu drugich eksperymentów). Jednak w zależności od tego, jaki jest pierwszy eksperyment, w niektórych przypadkach średni zasięg będzie słaby. Byłoby interesujące zobaczyć rozkład. Próbuję nauczyć się języka R wystarczająco dobrze, aby się dowiedzieć.

Harvey Motulsky

Odnośnie dystrybucji, zobacz artykuł, do którego linkowałem w komentarzach powyżej.

ameba mówi Przywróć Monikę