Jaka część powtórzeń eksperymentów będzie miała wielkość efektu w 95% przedziale ufności pierwszego eksperymentu?

12

Trzymajmy się idealnej sytuacji z losowym próbkowaniem, populacjami Gaussa, równymi wariancjami, brakiem hakowania P itp.

Krok 1. Przeprowadzasz eksperyment, powiedzmy, porównując dwie średnie próby i obliczasz 95% przedział ufności dla różnicy między dwoma średnimi populacji.

Krok 2. Przeprowadzasz o wiele więcej eksperymentów (tysiące). Różnica między średnimi będzie się różnić w zależności od eksperymentu z powodu losowego próbkowania.

Pytanie: Jaka część różnicy między średnimi z kolekcji eksperymentów w kroku 2 będzie mieściła się w przedziale ufności w kroku 1?

Na to nie można odpowiedzieć. Wszystko zależy od tego, co wydarzyło się w kroku 1. Jeśli eksperyment z kroku 1 był bardzo nietypowy, odpowiedź na pytanie może być bardzo niska.

Wyobraź sobie więc, że oba kroki są powtarzane wiele razy (z krokiem powtórzonym wiele razy). Sądzę, że teraz powinno być możliwe wymyślenie, która część powtarzalnych eksperymentów ma średnio wielkość efektu w 95% przedziale ufności pierwszego eksperymentu.

Wydaje się, że należy zrozumieć odpowiedź na te pytania, aby ocenić odtwarzalność badań, obecnie bardzo gorący obszar.

Harvey Motulsky
źródło
Dla każdego oryginału (krok 1) eksperymenty , określa x i jako frakcję kolejnym etapie (2) wynika, że wyniki przedstawiła w przedziale ufności pierwotnego wyniku. Chcesz obliczyć rozkład empiryczny x ? ixix
Matthew Gunn,
Tak, rozumiesz, o co proszę
Harvey Motulsky,
@MatthewGunn zapytał, czy chcesz empiryczny rozkład „frakcji przechwytywania” do przyszłych obserwacji. W twoim poście zapytano: „myślę, że powinno być możliwe wymyślenie, jaka część przeciętnie powtarzanych eksperymentów ma wielkość efektu w 95% przedziale ufności pierwszego eksperymentu” . To nie jest rozkład, ale oczekiwana wartość (średnia).
Analiza Whubera jest świetna, ale jeśli potrzebujesz cytatu, oto artykuł szczegółowo omawiający to pytanie: Cumming i Maillardet, 2006, Interwały zaufania i replikacja: Gdzie spadnie następny średni? . Nazywają to przechwytywaniem procentu przedziału ufności.
ameba mówi Przywróć Monikę

Odpowiedzi:

12

Analiza

Ponieważ jest to pytanie koncepcyjne, dla uproszczenia rozważmy sytuację, w której przedział ufności [ ˉ x ( 1 ) + Z α / 2 s ( 1 ) / 1αjest konstruowane dla średniejμprzy użyciu losowej próbkix(1)o wielkościn,a druga losowa próbkax(2)jest pobierana o wielkościm, wszystkie z tego samegorozkładunormalnego(μ,σ2). (Jeśli chcesz, możesz zastąpićZs wartościami zrozkładuStudentatn-1stopni swobody; poniższa analiza nie zmieni się.)

[x¯(1)+Zα/2s(1)/n,x¯(1)+Z1α/2s(1)/n]
μx(1)nx(2)m(μ,σ2)Ztn1

Szansa, że ​​średnia z drugiej próbki mieści się w CI określonym przez pierwszą, wynosi

Pr(x¯(1)+Zα/2ns(1)x¯(2)x¯(1)+Z1α/2ns(1))=Pr(Zα/2ns(1)x¯(2)x¯(1)Z1α/2ns(1)).

Ponieważ średnia z pierwszej próbki jest niezależna od odchylenia standardowego pierwszej próbki (wymaga to normalności), a druga próbka jest niezależna od pierwszej, różnica w próbce oznacza jest niezależny od . Ponadto dla tego symetrycznego przedziału . Dlatego pisząc dla zmiennej losowej i podnosząc do kwadratu obie nierówności, rozważane prawdopodobieństwo jest takie samo jaks(1)x¯(1)s(1) s ( 1 ) Z α / 2 = - Z 1 - α / 2 S s ( 1 )U=x¯(2)x¯(1)s(1)Zα/2=Z1α/2Ss(1)

Pr(U2(Z1α/2n)2S2)=Pr(U2S2(Z1α/2n)2).

Prawa oczekiwania sugerują, że ma średnią i wariancję0U0

Var(U)=Var(x¯(2)x¯(1))=σ2(1m+1n).

Ponieważ jest liniową kombinacją zmiennych normalnych, ma również rozkład normalny. Dlatego to razy zmienna . Wiedzieliśmy już, że jest razy zmienną . W konsekwencji jest razy zmienna o rozkładzie . Wymagane prawdopodobieństwo podaje rozkład F jakoUU2σ2(1n+1m)χ2(1)S2σ2/nχ2(n1)U2/S21/n+1/mF(1,n1)

(1)F1,n1(Z1α/221+n/m).

Dyskusja

Ciekawym przypadkiem jest sytuacja, gdy druga próbka ma taki sam rozmiar jak pierwsza, tak że i tylko i określają prawdopodobieństwo. Oto wartości wykreślone względem dla .n/m=1nα(1)αn=2,5,20,50

Postać

Wykresy rosną do wartości granicznej przy każdym wraz ze wzrostem . Tradycyjny rozmiar testu jest oznaczony pionową szarą linią. W przypadku dużych wartości szansa na ograniczenie dla wynosi około .αnα=0.05n=mα=0.0585%

Dzięki zrozumieniu tego limitu przejrzymy szczegóły dotyczące małych rozmiarów próbek i lepiej zrozumiemy sedno sprawy. Gdy rośnie, rozkład zbliża się do rozkładu . Pod względem standardowego rozkładu normalnego prawdopodobieństwo następnie przybliżonen=mFχ2(1)Φ(1)

Φ(Z1α/22)Φ(Zα/22)=12Φ(Zα/22).

Na przykład, przy , i . W konsekwencji wartość graniczna uzyskana przez krzywe przy wraz ze wzrostem będzie wynosić . Widać, że zostało prawie osiągnięte dla (gdzie szansa wynosi ).α=0.05Zα/2/21.96/1.411.386Φ(1.386)0.083α=0.05n12(0.083)=10.166=0.834n=500.8383

Dla małych związek między a prawdopodobieństwem uzupełniającym - ryzyko, że CI nie obejmuje drugiego środka - jest prawie idealnie prawem mocy. αα Innym sposobem na wyrażenie tego jest to, że prawdopodobieństwo komplementarności logarytmu jest prawie liniową funkcją . Relacja graniczna jest w przybliżeniulogα

log(2Φ(Zα/22))1.79712+0.557203log(20α)+0.00657704(log(20α))2+

Innymi słowy, dla dużych i gdziekolwiek w pobliżu tradycyjnej wartości , będzie bliskien=mα0.05(1)

10.166(20α)0.557.

(To bardzo przypomina mi analizę nakładających się przedziałów ufności, które opublikowałem na stronie /stats//a/18259/919 . Rzeczywiście, magiczna moc, , jest bardzo prawie odwrotna do magicznej mocy tutaj . W tym momencie powinieneś być w stanie ponownie zinterpretować tę analizę pod względem odtwarzalności eksperymentów).1.910.557


Wyniki eksperymentalne

Wyniki te są potwierdzone za pomocą prostej symulacji. Poniższy Rkod zwraca częstotliwość pokrycia, szansę obliczoną za pomocą oraz wynik Z do oceny, jak bardzo się różnią. Z-score są zazwyczaj mniejsze niż , niezależnie od (lub nawet czy obliczone jest lub CI), co wskazuje na poprawność wzoru .(1)2n,m,μ,σ,αZt(1)

n <- 3      # First sample size
m <- 2      # Second sample size
sigma <- 2 
mu <- -4
alpha <- 0.05
n.sim <- 1e4
#
# Compute the multiplier.
#
Z <- qnorm(alpha/2)
#Z <- qt(alpha/2, df=n-1) # Use this for a Student t C.I. instead.
#
# Draw the first sample and compute the CI as [l.1, u.1].
#
x.1 <- matrix(rnorm(n*n.sim, mu, sigma), nrow=n)
x.1.bar <- colMeans(x.1)
s.1 <- apply(x.1, 2, sd)
l.1 <- x.1.bar + Z * s.1 / sqrt(n)
u.1 <- x.1.bar - Z * s.1 / sqrt(n)
#
# Draw the second sample and compute the mean as x.2.
#
x.2 <- colMeans(matrix(rnorm(m*n.sim, mu, sigma), nrow=m))
#
# Compare the second sample means to the CIs.
#
covers <- l.1 <= x.2 & x.2 <= u.1
#
# Compute the theoretical chance and compare it to the simulated frequency.
#
f <- pf(Z^2 / ((n * (1/n + 1/m))), 1, n-1)
m.covers <- mean(covers)
(c(Simulated=m.covers, Theoretical=f, Z=(m.covers - f)/sd(covers) * sqrt(length(covers))))
Whuber
źródło
Mówisz, że użycie t zamiast z nie zrobi dużej różnicy. Wierzę, że jeszcze nie sprawdziłeś. Przy małej wielkości próby dwie wartości krytyczne mogą się znacznie różnić, a rozkład t jest poprawnym sposobem obliczenia CI. Dlaczego wolisz używać Z?
Harvey Motulsky
Jest to wyłącznie przykładowe, a jest prostsze. Kiedy używasz , ciekawe jest, że krzywe na figurze zaczynają się wysoko i schodzą do granicy. W szczególności szansa na odtworzenie znaczącego wyniku jest wtedy znacznie większa dla małych próbek niż dla dużych! Zauważ, że nie ma nic do sprawdzenia, ponieważ możesz interpretować jako punkt procentowy odpowiedniej dystrybucji t Studenta (lub dowolnej innej dystrybucji, którą zechcesz nazwać). Nic się nie zmienia w analizie. Jeśli chcesz zobaczyć poszczególne efekty, odkomentuj wiersz w kodzie. t Z αZtZαqt
whuber
1
+1. To świetna analiza (a twoja odpowiedź ma zdecydowanie za mało głosów pozytywnych na to, co to jest). Właśnie natknąłem się na artykuł szczegółowo omawiający to pytanie i pomyślałem, że możesz być zainteresowany: Cumming i Maillardet, 2006, Interwały zaufania i replikacja: Gdzie będzie następny średni upadek? . Nazywają to przechwytywaniem procentu przedziału ufności.
ameba mówi Przywróć Monikę
@Amoeba Dziękujemy za odniesienie. Szczególnie doceniam jeden ogólny wniosek w tym zakresie: „Replikacja ma kluczowe znaczenie dla metody naukowej, a badacze nie powinni przymykać na nią oka tylko dlatego, że uwidacznia ona nieodłączną niepewność pojedynczego badania”.
whuber
1
Aktualizacja: Dzięki trwającej dyskusji w wątku siostrzanym Teraz wierzę moje rozumowanie w powyższym komentarzu był nie prawidłowe. 95% CI ma 83% „przechwytywania replikacji”, ale jest to stwierdzenie dotyczące powtarzania próbkowania i nie może być interpretowane jako dające prawdopodobieństwo uwarunkowane jednym konkretnym przedziałem ufności, przynajmniej nie bez dalszych założeń. (Być może zarówno ten, jak i poprzednie komentarze powinny być lepiej usunięte, aby nie mylić dalszych czytelników.)
mówi ameba Przywróć Monikę
4

[Edytowane, aby naprawić błąd, który wskazał Whuber.]

Zmieniłem kod R @ Whubera, aby użyć rozkładu t i pokrycia powierzchni w zależności od wielkości próbki. Wyniki są poniżej. Przy dużej wielkości próbki wyniki są oczywiście zgodne z WHuberem.

wprowadź opis zdjęcia tutaj

A oto dostosowany kod R, uruchamiany dwukrotnie z ustawieniem alfa na 0,01 lub 0,05.

sigma <- 2 
mu <- -4
alpha <- 0.01
n.sim <- 1e5
#
# Compute the multiplier.

for (n in c(3,5,7,10,15,20,30,50,100,250,500,1000))
{
   T <- qt(alpha/2, df=n-1)     
# Draw the first sample and compute the CI as [l.1, u.1].
#
x.1 <- matrix(rnorm(n*n.sim, mu, sigma), nrow=n)
x.1.bar <- colMeans(x.1)
s.1 <- apply(x.1, 2, sd)
l.1 <- x.1.bar + T * s.1 / sqrt(n)
u.1 <- x.1.bar - T * s.1 / sqrt(n)
#
# Draw the second sample and compute the mean as x.2.
#
x.2 <- colMeans(matrix(rnorm(n*n.sim, mu, sigma), nrow=n))
#
# Compare the second sample means to the CIs.
#
covers <- l.1 <= x.2 & x.2 <= u.1
#
Coverage=mean(covers)

print (Coverage)

}

A oto plik GraphPad Prism , który utworzył wykres.

Harvey Motulsky
źródło
Wierzę, że twoje wykresy nie używają rozkładu t , z powodu błędu: ustawiłeś wartość Tpoza pętlą! Jeśli chcesz zobaczyć poprawne krzywe, po prostu wykreśl je bezpośrednio, korzystając z teoretycznego wyniku w mojej odpowiedzi, podanego na końcu mojego Rkodu (zamiast polegać na symulowanych wynikach):curve(pf(qt(.975, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), 2, 1000, log="x", ylim=c(.8,1), col="Blue"); curve(pf(qt(.995, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), add=TRUE, col="Red")
whuber
1
@whuber. Yikes! Oczywiście masz rację. Żenujący. Naprawiłem to. Jak wskazałeś, zasięg jest większy w przypadku małych próbek. (Naprawiłem symulacje i nie wypróbowałem twojej teoretycznej funkcji.)
Harvey Motulsky,
Cieszę się, że to naprawiłeś, ponieważ to bardzo interesujące, jak wysokie jest pokrycie dla małych rozmiarów próbek. Możemy również odwrócić twoje pytanie i użyć wzoru, aby ustalić, jakiej wartości użyć, jeśli chcemy zapewnić (przed wykonaniem jakichkolwiek eksperymentów), z prawdopodobieństwem (powiedzmy), że średnia z drugi eksperyment mieściłby się w dwustronnym przedziale ufności określonym na podstawie drugiego. Robienie tego, jako rutynowa praktyka, może być jednym z intrygujących sposobów odpowiedzi na krytykę NHST. p = 0,95 1 - αZα/2p=0.951α
whuber
@ whuber Myślę, że następnym krokiem jest przyjrzenie się rozkładowi zasięgu. Do tej pory mamy średni zasięg (średnia z wielu pierwszych eksperymentów, ze średnią z wielu drugich eksperymentów). Jednak w zależności od tego, jaki jest pierwszy eksperyment, w niektórych przypadkach średni zasięg będzie słaby. Byłoby interesujące zobaczyć rozkład. Próbuję nauczyć się języka R wystarczająco dobrze, aby się dowiedzieć.
Harvey Motulsky
Odnośnie dystrybucji, zobacz artykuł, do którego linkowałem w komentarzach powyżej.
ameba mówi Przywróć Monikę