Odchylenie standardowe odchylenia standardowego

54

Jaki jest estymator odchylenia standardowego odchylenia standardowego, jeśli można założyć normalność danych?

Ferdi
źródło
Przypuszczam, że szukasz rozkładu wariancji próbki . To łącze do sekcji na stronie Wikipedii dotyczącej wariancji z 16:55, 21 sierpnia 2016 r. Ponieważ jest to link do Wikipedii, artykuł może ulec zmianie w przyszłości. W związku z tym sekcja może nie odzwierciedlać treści, do której odnosi się ta odpowiedź po takich zmianach. Dlatego link do historycznej wersji strony Wikipedii znajduje się tutaj. Aktualny artykuł na temat wariancji znajduje się [tutaj] ( en.wikipedia.org/wik

Odpowiedzi:

58

Niech . Jak pokazano w tym wątku , odchylenie standardowe przykładowego odchylenia standardowego,X1,...,XnN(μ,σ2)

s=1n1i=1n(XiX¯),

jest

SD(s)=E([E(s)s]2)=σ12n1(Γ(n/2)Γ(n12))2

gdzie to funkcja gamma , to wielkość próbki, a to średnia próbki. Ponieważ jest zgodny estymator , sugeruje to, zastępując z w równaniu powyżej, aby otrzymać spójny estymator .Γ()nX¯=1ni=1nXisσσsSD(s)

Jeśli szukasz obiektywnego estymatora, w tym wątku widzimy, że , co według liniowości oczekiwań sugerujeE(s)=σ2n1Γ(n/2)Γ(n12)

sn12Γ(n12)Γ(n/2)

jako obiektywny estymator . Wszystko to wraz z liniowością oczekiwań daje obiektywny estymator : σSD(s)

sΓ(n12)Γ(n/2)n12(Γ(n/2)Γ(n12))2
Makro
źródło
12
+1 Miło jest widzieć, że po prawie dwóch latach pojawia się nie tylko lepsza odpowiedź, ale odpowiedź, która zawiera bardziej użyteczne szczegóły niż odniesienia w innych miejscach tego wątku.
whuber
2
Czy zapomniałeś wyrównać odległości w pierwszej formule?
danijar,
2
Funkcję Gamma trudno jest obliczyć dla niemałych wartości . Stosując przybliżenie Stirlinga, otrzymuję , co jest wykonalne obliczeniowo, a także trochę bardziej kompaktowy pod względem ekspresji. nse(11n)n11
equaeghe,
1
Prawdopodobnie warto zauważyć, że s (obliczone w odpowiedzi @ Macro jest czasem określane jako błąd standardowy odchylenia standardowego próbki
Harvey Motulsky,
Dla tych, którzy chcą prostej formy, jest dobrym przybliżeniem na poziomie kilku procent. s/2(n1)
Syrtis Major
5

Załóżmy, że obserwujesz iid od wartości normalnej ze średnim zerem i wariancją . (Empiryczne) odchylenie standardowe jest pierwiastkiem kwadratowym estymatora z (obiektywne czy nie, to nie jest pytanie). Jako estymator (uzyskany za pomocą ), ma wariancję, którą można obliczyć teoretycznie. Może to, co nazywacie odchyleniem standardowym odchylenia standardowego, jest w rzeczywistości pierwiastkiem kwadratowym wariancji odchylenia standardowego, tj. ? To nie jest estymator, to wielkość teoretyczna (coś w rodzajuX1,,Xnσ2σ^2σ2X1,,Xnσ^E[(σσ^)2]σ/n do potwierdzenia), które można obliczyć bezpośrednio!

Robin Girard
źródło
Czy to nie funkcja estymatora nadal jest estymatorem? Nadal nie wiem \ sigma, tylko X_i.
ok, wtedy prawdopodobnie oszacujesz pierwiastek kwadratowy wariancji oszacowania pierwiastka kwadratowego wariancji ... prawda :) powinno być coś w rodzaju ? σ^/n
robin girard
To, co Srikant znalazł (i co wydaje się potwierdzone w PhysicsForums), powinno być , więc raczej . 2σ^22n
1
Aww, te komentarze blokują; . Przynajmniej ten daje wynik zgodny z bootstrap. σ^2n
-3

@Macro dostarczył świetne matematyczne wyjaśnienie z równaniem do obliczenia. Oto bardziej ogólne wyjaśnienie dla osób mniej matematycznych.

Myślę, że terminologia „SD of SD” jest dla wielu myląca. Łatwiej jest pomyśleć o przedziale ufności SD. Jak dokładne jest odchylenie standardowe, które obliczasz na podstawie próbki? Może przypadkiem udało się uzyskać dane, które są ściśle ze sobą powiązane, co powoduje, że próbka SD jest znacznie niższa niż SD populacji. Lub możesz mieć losowo uzyskane wartości, które są znacznie bardziej rozproszone niż ogólna populacja, dzięki czemu próbka SD jest wyższa niż SD populacji.

Interpretacja CI w SD jest prosta. Zacznij od zwykłego założenia, że ​​twoje dane były losowo i niezależnie próbkowane z rozkładu Gaussa. Teraz powtórz to próbkowanie wiele razy. Oczekujesz, że 95% przedziałów ufności będzie zawierać rzeczywistą SD populacji.

Jak szeroki jest 95% przedział ufności SD? Oczywiście zależy to od wielkości próbki (n).

n: 95% CI SD

2: 0,45 * SD do 31,9 * SD

3: 0,52 * SD do 6,29 * SD

5: 0,60 * SD do 2,87 * SD

10: 0,69 * SD do 1,83 * SD

25: 0,78 * SD do 1,39 * SD

50: 0,84 * SD do 1,25 * SD

100: 0,88 * SD do 1,16 * SD

500: 0,94 * SD do 1,07 * SD

Darmowy kalkulator internetowy

Harvey Motulsky
źródło
Mogę zrobić Monte Carlo, chciałem po prostu zrobić to w bardziej „naukowy” sposób; nadal masz rację, że dystrybucja nie jest normalna, więc ten sd będzie bezużyteczny do testowania.
4
Jeśli chodzi o to, co jest warte, czuję się niekomfortowo ze stwierdzeniem „przedział ufności wynoszący 95% ... prawdopodobnie zawiera prawdziwe SD” (lub, bardziej precyzyjnie na stronie z linkami: „możesz być w 95% pewien, że CI obliczony z próbki SD zawiera rzeczywistą populację SD ”). Myślę, że te stwierdzenia flirtują z / wzmacniając popularne nieporozumienie, patrz tutaj , na przykład, na powiązaną dyskusję na temat CV.
gung - Przywróć Monikę
5
Co „myślę, że zarówno pojęcie, jak i terminologia„ SD of SD ”jest zbyt śliskie, aby się nim zajmować”? Przykładowe odchylenie standardowe jest losową zmienną o odchyleniu standardowym.
Makro
@Macro. Dziękuję za komentarze. Przepisałem znacznie.
Harvey Motulsky
1
@gung. Przepisałem, aby poprawnie wyjaśnić przedział ufności.
Harvey Motulsky