W artykule znalazłem wzór na standardowe odchylenie wielkości próby
gdzie to średni zakres podpróbek (rozmiar ) z próbki głównej. Jak obliczana jest liczba ? To jest poprawny numer? 62,534
W artykule znalazłem wzór na standardowe odchylenie wielkości próby
gdzie to średni zakres podpróbek (rozmiar ) z próbki głównej. Jak obliczana jest liczba ? To jest poprawny numer? 62,534
Odpowiedzi:
W przykładowej o n niezależnie od rozkładu wartości F z PDF F , pdf wspólnego dystrybucji skrajnymi min ( x ) = x [ 1 ] i max ( x ) = x [ n ] jest proporcjonalna dox n F f min(x)=x[1] max(x)=x[n]
(Stała proporcjonalności jest odwrotnością współczynnika wielomianowego . Intuicyjnie ten wspólny plik PDF wyraża szansę znalezienia najmniejszej wartości z zakresu[x[1],x[1]+dx[1]), największej wartości z zakresu[x[n],x[n]+dx[n])(n1,n−2,1)=n(n−1) [x[1],x[1]+dx[1]) [x[n],x[n]+dx[n]) , a środkowe wartości między nimi w zakresie [ x [ 1 ] + d x [ 1 ] , x [ n ] ) . Gdy F jest ciągłe, możemy zastąpić ten środkowy zakres ( x [ 1 ] , x [ n ] ] , tym samym zaniedbując jedynie „nieskończenie małą” wartość prawdopodobieństwa. Powiązane prawdopodobieństwa, w porządku różniczkowym pierwszego rzędu, to f ( x [ 1 ]n−2 [x[1]+dx[1],x[n]) F (x[1],x[n]] F ( x [ n ] ) d x [ n ] , i F ( x [ n ] ) - F ( x [ 1 ] ) , . R, obecnie co oczywiste, w którym wzór pochodzi)f(x[1])dx[1], f(x[n])dx[n], F(x[n])−F(x[1]),
Taking the expectation of the rangex[n]−x[1] gives 2.53441 σ for any Normal distribution with standard deviation σ and n=6 . The expected range as a multiple of σ depends on the sample size n :
These values were computed by numerically integrating(n1,n−2,1)(y−x)HF(x,y)dxdy over {(x,y)∈R2|x≤y} , with F set to the standard Normal CDF, and dividing by the standard deviation of F (which is just 1 ).
Podobny multiplikatywny związek między oczekiwanym zakresem a odchyleniem standardowym będzie obowiązywał dla dowolnej rodziny rozkładów w skali lokalizacji, ponieważ jest to właściwość samego kształtu rozkładu. Na przykład tutaj jest porównywalny wykres jednolitych rozkładów:
i rozkłady wykładnicze:
Wartości z poprzednich dwóch wykresów uzyskano przez dokładną - nie numeryczną - całkowanie, co jest możliwe dzięki względnie prostym formom algebraicznym i F w każdym przypadku. Dla rozkładów jednorodnych wynoszą one n - 1f F a dla rozkładów wykładniczych są oneγ+ψ(n)=γ+ Γ ′ ( n )n−1(n+1)12−−√ gdzieγjest stałą Eulera, aψjest funkcją „polygamma”, logarytmiczną pochodną funkcji Eulera Gamma.γ+ψ(n)=γ+Γ′(n)Γ(n) γ ψ
Chociaż różnią się (ponieważ te rozkłady wyświetlają szeroki zakres kształtów), trzy z grubsza zgadzają się wokół , co pokazuje, że mnożnik 2.5 nie zależy silnie od kształtu i dlatego może służyć jako wszechstronna, solidna ocena odchylenia standardowego gdy znane są zakresy małych podpróbek. (Rzeczywiście, bardzo gruboogoniasty rozkład t Studenta z trzema stopniami swobody wciąż ma mnożnik około 2,3 dla n = 6 , wcale nie tak daleko od 2,5 ).n=6 2.5 t 2.3 n=6 2.5
źródło
To przybliżenie jest bardzo zbliżone do rzeczywistego odchylenia standardowego próbki. Napisałem szybki skrypt R, aby to zilustrować:
co daje:
Teraz nie jestem (jeszcze) pewien, dlaczego to działa, ale przynajmniej wygląda (na pierwszy rzut oka), że przybliżenie jest przyzwoite.
Edycja: Zobacz wyjątkowy komentarz @ Whuber (powyżej), dlaczego to działa
źródło
mean(R)/2.474
równąsd(x)
.> mean(R)/2.474 [1] 2887.611