Trzymajmy się idealnej sytuacji z losowym próbkowaniem, populacjami Gaussa, równymi wariancjami, brakiem hakowania P itp.
Krok 1. Przeprowadzasz eksperyment, powiedzmy, porównując dwie średnie próby i obliczasz 95% przedział ufności dla różnicy między dwoma średnimi populacji.
Krok 2. Przeprowadzasz o wiele więcej eksperymentów (tysiące). Różnica między średnimi będzie się różnić w zależności od eksperymentu z powodu losowego próbkowania.
Pytanie: Jaka część różnicy między średnimi z kolekcji eksperymentów w kroku 2 będzie mieściła się w przedziale ufności w kroku 1?
Na to nie można odpowiedzieć. Wszystko zależy od tego, co wydarzyło się w kroku 1. Jeśli eksperyment z kroku 1 był bardzo nietypowy, odpowiedź na pytanie może być bardzo niska.
Wyobraź sobie więc, że oba kroki są powtarzane wiele razy (z krokiem powtórzonym wiele razy). Sądzę, że teraz powinno być możliwe wymyślenie, która część powtarzalnych eksperymentów ma średnio wielkość efektu w 95% przedziale ufności pierwszego eksperymentu.
Wydaje się, że należy zrozumieć odpowiedź na te pytania, aby ocenić odtwarzalność badań, obecnie bardzo gorący obszar.
źródło
Odpowiedzi:
Analiza
Ponieważ jest to pytanie koncepcyjne, dla uproszczenia rozważmy sytuację, w której przedział ufności [ ˉ x ( 1 ) + Z α / 2 s ( 1 ) / √1−α jest konstruowane dla średniejμprzy użyciu losowej próbkix(1)o wielkościn,a druga losowa próbkax(2)jest pobierana o wielkościm, wszystkie z tego samegorozkładunormalnego(μ,σ2). (Jeśli chcesz, możesz zastąpićZs wartościami zrozkładuStudentatn-1stopni swobody; poniższa analiza nie zmieni się.)
Szansa, że średnia z drugiej próbki mieści się w CI określonym przez pierwszą, wynosi
Ponieważ średnia z pierwszej próbki jest niezależna od odchylenia standardowego pierwszej próbki (wymaga to normalności), a druga próbka jest niezależna od pierwszej, różnica w próbce oznacza jest niezależny od . Ponadto dla tego symetrycznego przedziału . Dlatego pisząc dla zmiennej losowej i podnosząc do kwadratu obie nierówności, rozważane prawdopodobieństwo jest takie samo jaks(1)x¯(1) s(1) s ( 1 ) Z α / 2 = - Z 1 - α / 2 S s ( 1 )U=x¯(2)−x¯(1) s(1) Zα/2=−Z1−α/2 S s(1)
Prawa oczekiwania sugerują, że ma średnią i wariancję0U 0
Ponieważ jest liniową kombinacją zmiennych normalnych, ma również rozkład normalny. Dlatego to razy zmienna . Wiedzieliśmy już, że jest razy zmienną . W konsekwencji jest razy zmienna o rozkładzie . Wymagane prawdopodobieństwo podaje rozkład F jakoU U2 σ2(1n+1m) χ2(1) S2 σ2/n χ2(n−1) U2/S2 1/n+1/m F(1,n−1)
Dyskusja
Ciekawym przypadkiem jest sytuacja, gdy druga próbka ma taki sam rozmiar jak pierwsza, tak że i tylko i określają prawdopodobieństwo. Oto wartości wykreślone względem dla .n/m=1 n α (1) α n=2,5,20,50
Wykresy rosną do wartości granicznej przy każdym wraz ze wzrostem . Tradycyjny rozmiar testu jest oznaczony pionową szarą linią. W przypadku dużych wartości szansa na ograniczenie dla wynosi około .α n α=0.05 n=m α=0.05 85%
Dzięki zrozumieniu tego limitu przejrzymy szczegóły dotyczące małych rozmiarów próbek i lepiej zrozumiemy sedno sprawy. Gdy rośnie, rozkład zbliża się do rozkładu . Pod względem standardowego rozkładu normalnego prawdopodobieństwo następnie przybliżonen=m F χ2(1) Φ (1)
Na przykład, przy , i . W konsekwencji wartość graniczna uzyskana przez krzywe przy wraz ze wzrostem będzie wynosić . Widać, że zostało prawie osiągnięte dla (gdzie szansa wynosi ).α=0.05 Zα/2/2–√≈−1.96/1.41≈−1.386 Φ(−1.386)≈0.083 α=0.05 n 1−2(0.083)=1−0.166=0.834 n=50 0.8383…
Dla małych związek między a prawdopodobieństwem uzupełniającym - ryzyko, że CI nie obejmuje drugiego środka - jest prawie idealnie prawem mocy.α α Innym sposobem na wyrażenie tego jest to, że prawdopodobieństwo komplementarności logarytmu jest prawie liniową funkcją . Relacja graniczna jest w przybliżeniulogα
Innymi słowy, dla dużych i gdziekolwiek w pobliżu tradycyjnej wartości , będzie bliskien=m α 0.05 (1)
(To bardzo przypomina mi analizę nakładających się przedziałów ufności, które opublikowałem na stronie /stats//a/18259/919 . Rzeczywiście, magiczna moc, , jest bardzo prawie odwrotna do magicznej mocy tutaj . W tym momencie powinieneś być w stanie ponownie zinterpretować tę analizę pod względem odtwarzalności eksperymentów).1.91 0.557
Wyniki eksperymentalne
Wyniki te są potwierdzone za pomocą prostej symulacji. Poniższy(1) 2 n,m,μ,σ,α Z t (1)
R
kod zwraca częstotliwość pokrycia, szansę obliczoną za pomocą oraz wynik Z do oceny, jak bardzo się różnią. Z-score są zazwyczaj mniejsze niż , niezależnie od (lub nawet czy obliczone jest lub CI), co wskazuje na poprawność wzoru .źródło
qt
[Edytowane, aby naprawić błąd, który wskazał Whuber.]
Zmieniłem kod R @ Whubera, aby użyć rozkładu t i pokrycia powierzchni w zależności od wielkości próbki. Wyniki są poniżej. Przy dużej wielkości próbki wyniki są oczywiście zgodne z WHuberem.
A oto dostosowany kod R, uruchamiany dwukrotnie z ustawieniem alfa na 0,01 lub 0,05.
A oto plik GraphPad Prism , który utworzył wykres.
źródło
T
poza pętlą! Jeśli chcesz zobaczyć poprawne krzywe, po prostu wykreśl je bezpośrednio, korzystając z teoretycznego wyniku w mojej odpowiedzi, podanego na końcu mojegoR
kodu (zamiast polegać na symulowanych wynikach):curve(pf(qt(.975, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), 2, 1000, log="x", ylim=c(.8,1), col="Blue"); curve(pf(qt(.995, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), add=TRUE, col="Red")