Odchylenie standardowe ma zastosowanie tutaj, jak gdziekolwiek indziej: daje użyteczne informacje na temat rozproszenia danych. W szczególności wartość sd podzielona przez pierwiastek kwadratowy z wielkości próby jest jednym błędem standardowym: szacuje ona rozproszenie rozkładu próbkowania średniej. Obliczmy:
3.2%/10000−−−−−√=0.032%=0.00032.
To malutkie - znacznie mniejsze niż pożądana precyzja .±0.50%
Chociaż dane nie są normalnie rozmieszczone, średnia próbki jest bardzo zbliżona do rozkładu normalnego, ponieważ wielkość próbki jest tak duża. Oto na przykład histogram próbki o takich samych cechach jak twoja, a po jego prawej stronie histogram średnich z tysiąca dodatkowych próbek z tej samej populacji.
Wygląda bardzo normalnie, prawda?
Zatem, chociaż wydaje się, że ładujesz poprawnie, ładowanie nie jest potrzebne: symetryczny przedział ufności dla średniej jest uzyskiwany, jak zwykle, przez pomnożenie błędu standardowego przez odpowiedni percentyl standardowego rozkładu normalnego (w celu dowcip, ) i przesunięcie tej odległości na dowolną stronę średniej. W twoim przypadku , więc przedział ufności wynosi100−α%Z1−α/200Z1−α/200=2.575899%
(0.977−2.5758(0.032)/10000−−−−−√, 0.977+2.5758(0.032)/10000−−−−−√)=(97.62%,97.78%).
Wystarczający rozmiar próbki można znaleźć, odwracając tę zależność, aby rozwiązać dla wielkości próby. Tutaj mówi nam, że potrzebujesz wielkości próbki w pobliżu
(3.2%/(0.5%/Z1−α/200))2≈272.
Jest to na tyle małe, że możemy chcieć ponownie sprawdzić wniosek, że rozkład próby średniej jest normalny. Wyciągnąłem próbkę z mojej populacji i przywróciłem jej średnią (dla iteracji):99992729999
Jasne, wygląda normalnie. W rzeczywistości przedział ufności ładowania początkowego jest prawie identyczny z CI w teorii normalnej .( 97,19 % , 98,24 % )(97.16%,98.21%)(97.19%,98.24%)
Jak pokazują powyższe przykłady, absolutna wielkość próby określa dokładność szacunków zamiast proporcji wielkości populacji. (Ekstremalnym, ale intuicyjnym przykładem jest to, że pojedyncza kropla wody morskiej może zapewnić dokładne oszacowanie stężenia soli w oceanie, nawet jeśli ta kropla stanowi tak niewielki ułamek całej wody morskiej.) Dla podanych celów uzyskanie próbki od (która wymaga więcej niż razy tyle pracy jako próby ) jest przesadą.36 2721000036272
R
kod do wykonania tych analiz i wykreślenia tych grafik. Próbki pochodzą z populacji o rozkładzie beta ze średnią i SD .0,0320.9770.032
set.seed(17)
#
# Study a sample of 10,000.
#
Sample <- rbeta(10^4, 20.4626, 0.4817)
hist(Sample)
hist(replicate(10^3, mean(rbeta(10^4, 20.4626, 0.4817))),xlab="%",main="1000 Sample Means")
#
# Analyze a sample designed to achieve a CI of width 1%.
#
(n.sample <- ceiling((0.032 / (0.005 / qnorm(1-0.005)))^2))
Sample <- rbeta(n.sample, 20.4626, 0.4817)
cat(round(mean(Sample), 3), round(sd(Sample), 3)) # Sample statistics
se.mean <- sd(Sample) / sqrt(length(Sample)) # Standard error of the mean
cat("CL: ", round(mean(Sample) + qnorm(0.005)*c(1,-1)*se.mean, 5)) # Normal CI
#
# Compare the bootstrapped CI of this sample.
#
Bootstrapped.means <- replicate(9999, mean(sample(Sample, length(Sample), replace=TRUE)))
hist(Bootstrapped.means)
cat("Bootstrap CL:", round(quantile(Bootstrapped.means, c(0.005, 1-0.005)), 5))