Jaki jest estymator odchylenia standardowego odchylenia standardowego, jeśli można założyć normalność danych?
54
Jaki jest estymator odchylenia standardowego odchylenia standardowego, jeśli można założyć normalność danych?
Odpowiedzi:
Niech . Jak pokazano w tym wątku , odchylenie standardowe przykładowego odchylenia standardowego,X1,...,Xn∼N(μ,σ2)
jest
gdzie to funkcja gamma , to wielkość próbki, a to średnia próbki. Ponieważ jest zgodny estymator , sugeruje to, zastępując z w równaniu powyżej, aby otrzymać spójny estymator .Γ(⋅) n X¯¯¯¯=1n∑ni=1Xi s σ σ s SD(s)
Jeśli szukasz obiektywnego estymatora, w tym wątku widzimy, że , co według liniowości oczekiwań sugerujeE(s)=σ⋅2n−1−−−√⋅Γ(n/2)Γ(n−12)
jako obiektywny estymator . Wszystko to wraz z liniowością oczekiwań daje obiektywny estymator :σ SD(s)
źródło
Załóżmy, że obserwujesz iid od wartości normalnej ze średnim zerem i wariancją . (Empiryczne) odchylenie standardowe jest pierwiastkiem kwadratowym estymatora z (obiektywne czy nie, to nie jest pytanie). Jako estymator (uzyskany za pomocą ), ma wariancję, którą można obliczyć teoretycznie. Może to, co nazywacie odchyleniem standardowym odchylenia standardowego, jest w rzeczywistości pierwiastkiem kwadratowym wariancji odchylenia standardowego, tj. ? To nie jest estymator, to wielkość teoretyczna (coś w rodzajuX1,…,Xn σ2 σ^2 σ2 X1,…,Xn σ^ E[(σ−σ^)2]−−−−−−−−−√ σ/n−−√ do potwierdzenia), które można obliczyć bezpośrednio!
źródło
@Macro dostarczył świetne matematyczne wyjaśnienie z równaniem do obliczenia. Oto bardziej ogólne wyjaśnienie dla osób mniej matematycznych.
Myślę, że terminologia „SD of SD” jest dla wielu myląca. Łatwiej jest pomyśleć o przedziale ufności SD. Jak dokładne jest odchylenie standardowe, które obliczasz na podstawie próbki? Może przypadkiem udało się uzyskać dane, które są ściśle ze sobą powiązane, co powoduje, że próbka SD jest znacznie niższa niż SD populacji. Lub możesz mieć losowo uzyskane wartości, które są znacznie bardziej rozproszone niż ogólna populacja, dzięki czemu próbka SD jest wyższa niż SD populacji.
Interpretacja CI w SD jest prosta. Zacznij od zwykłego założenia, że twoje dane były losowo i niezależnie próbkowane z rozkładu Gaussa. Teraz powtórz to próbkowanie wiele razy. Oczekujesz, że 95% przedziałów ufności będzie zawierać rzeczywistą SD populacji.
Jak szeroki jest 95% przedział ufności SD? Oczywiście zależy to od wielkości próbki (n).
n: 95% CI SD
2: 0,45 * SD do 31,9 * SD
3: 0,52 * SD do 6,29 * SD
5: 0,60 * SD do 2,87 * SD
10: 0,69 * SD do 1,83 * SD
25: 0,78 * SD do 1,39 * SD
50: 0,84 * SD do 1,25 * SD
100: 0,88 * SD do 1,16 * SD
500: 0,94 * SD do 1,07 * SD
Darmowy kalkulator internetowy
źródło