Jak znaleźć odchylenie standardowe próbki odchylenie standardowe od rozkładu normalnego?

11

Wybacz mi, że coś przeoczyłem.

Jestem fizykiem z rozkładem (histogramem) skupionym wokół średniej wartości zbliżonej do rozkładu normalnego. Ważną dla mnie wartością jest odchylenie standardowe tej losowej zmiennej Gaussa. Jak miałbym spróbować znaleźć błąd w odchyleniu standardowym próbki? Mam wrażenie, że ma to związek z błędem na każdym bin w oryginalnym histogramie.

Dębnik
źródło
Wskazówka znajduje się na stronie stats.stackexchange.com/questions/26924 . Zasadniczo błąd próbkowania wariancji można obliczyć na podstawie pierwszych czterech momentów rozkładu, a zatem błąd próbkowania SD można przynajmniej oszacować na podstawie tych momentów.
whuber

Odpowiedzi:

12

Wygląda na to, że pytasz o obliczenie standardowego odchylenia standardowego odchylenia próbki. Oznacza to, że pytasz o , gdzieSD(s)=var(s)

s=1n1i=1n(XiX¯),

X1,...,XnN(μ,σ2) i to średnia z próby.X¯

Po pierwsze wiemy z podstawowych właściwości wariancji, że

var(s)=E(s2)E(s)2

Ponieważ wariancja próbki jest bezstronna, wiemy, żeE(s2)=σ2 . W Dlaczego odchylenie standardowe próbki jest tendencyjnym estymatorem ? σ, jest obliczana, z której można wywnioskować,E(s)

E(s)2=2σ2n1(Γ(n/2)Γ(n12))2

w związku z tym

SD(s)=E(s2)E(s)2=σ12n1(Γ(n/2)Γ(n12))2
Makro
źródło
Słuszna uwaga. Mam oszacowanie wariancji s ^ 2. Biorąc pierwiastek kwadratowy daje oszacowanie standardowego odchylenia s ^ 2. Ale odpowiedziałeś na rzeczywiste pytanie, które miało uzyskać standardowe odchylenie s. Zakładam, że ze względów praktycznych i Ty zastąpiłbyś σ s, aby uzyskać oszacowanie za pomocą wzoru.
Michael R. Chernick
Tak, to prawda, można zastąpić z s i przybliżenie to działa dobrze, nawet dla skromnych rozmiarach próbki - Zrobiłem kilka testów z n = 20 . σsn=20
Makro
11

Wielkość ma rozkład chi-kwadrat o n - 1 stopniach swobody, gdy próbki są niezależne i rozmieszczone z takim samym rozkładem normalnym. Tej wielkości można użyć, aby uzyskać przedziały ufności dla wariancja normy i jej odchylenie standardowe. Jeśli masz surowe wartości, a nie tylko centralną wartość pojemników, możesz obliczyć s 2 . X=(n1)s2/σ2n1s2

Wiadomo, że jeśli ma rozkład chi-kwadrat o n - 1 stopniach swobody, jego wariancja wynosi 2 ( n - 1 ) . Znając to i fakt, że V a r ( c X ) = c 2 V a r ( X ) otrzymujemy, że s 2 ma wariancję równą 2 ( n - 1 ) σ 4Xn12(n1)Var(cX)=c2Var(X)s2 Chociaż σ 4 jest nieznany, możesz go przybliżyć w przybliżeniu do s 4 i masz przybliżone wyobrażenie o tym, jaka jest wariancja s 2 .

2(n1)σ4(n1)2=2σ4n1.
σ4s4s2
Michael R. Chernick
źródło
Zamierzałem opublikować to na początku, ale problem, jaki tu widzę, polega na tym, że jest nieznany. Biorąc to pod uwagę, nie wiem, czy poprawne jest przybliżenie s 4σ 4, jeśli nawet nie znamy wielkości próbki. Pamiętam, że można pokazać, że czwarty moment może mieć poważne problemy z wartościami odstającymi. σ2s4σ4
Néstor
jest spójnym estymatorem σ 4 (pod warunkiem, że σ 4 istnieje), prawda @Nesp? Myślę, że to zwykle ma na myśli, gdy ludzie mówią „przybliżony” lub „szorstki pomysł”. s4σ4σ4
Makro
2
Może brak snu, ale czy to nie jest okrągłe rozumowanie?
Néstor
Od samego początku zakładaliśmy, że dane pochodzą z rozkładu normalnego, więc nie ma problemu z wartościami odstającymi. Miałem na myśli szorstki sposób, jaki sugeruje Macro. Zgadzam się, że wielkość próby wpływa na to, jak blisko s ^ 4 jest do σ ^ 4. Ale martwienie się o wartości odstające jest poza Nesp. Jeśli oddaliście mnie za to, uważam, że jest to bardzo niesprawiedliwe. To, co przedstawiłem, to standardowy sposób oszacowania odchylenia standardowego dla s ^ 2, gdy dane są NORMALNIE ROZPOWSZECHNIANE.
Michael R. Chernick
@Nesp, Michael podał spójny estymator wariancji odchylenia standardowego próbki od normalnie rozłożonej próbki - w przypadku dużych próbek zrobi to dobrze - zasymuluj ją i dowiedz się. Nie jestem pewien, dlaczego uważasz, że to jest okrągłe rozumowanie.
Makro
7

σ

x=(x1,...,xn)(μ,σ)

L(μ,σ)1σnexp(12σ2j=1n(xjμ)2)

(μ^,σ^)=(x¯,s)s=1nj=1n(xjx¯)2σ

Rp(σ)=supμL(μ,σ)L(μ^,σ^)=(σ^σ)nexp[n2(1(σ^σ)2)]

Rp:R+(0,1]0.1470.95R

data = rnorm(30)
n = length(data)
sg = sqrt(mean((data-mean(data))^2))
# Profile likelihood
rp = function(sigma) return( (sg/sigma)^n*exp(0.5*n*(1-(sg/sigma)^2))  )
vec = rvec = seq(0.5,1.5,0.01)
for(i in 1:length(rvec)) rvec[i] = rp(vec[i])
plot(vec,rvec,type="l")
rpc = function(sigma) return(rp(sigma)-0.147)
# Approximate 95% confidence interval
c(uniroot(rpc,c(0.7,0.8))$root,uniroot(rpc,c(1.1,1.3))$root)

σI=(L,U)σ2I=(L2,U2)


źródło
Myślę, że naprawdę chciał po prostu standardowego odchylenia s.
Michael R. Chernick