Zależność między zakresem a odchyleniem standardowym

14

W artykule znalazłem wzór na standardowe odchylenie wielkości próbyN

σ=R¯2.534

gdzie to średni zakres podpróbek (rozmiar ) z próbki głównej. Jak obliczana jest liczba ? To jest poprawny numer? 62,534R¯62.534

Andy
źródło
6
Referencje proszę. Co ważniejsze: 1. Nie może być tutaj „poprawnej liczby” niezależnie od rodzaju dystrybucji, z której czerpiesz. 2. Reguły te zwykle wynikają z zainteresowania skrótowymi metodami szacowania SD z zakresu. Teraz mamy komputery… Chcesz to zrobić i dlaczego? Dlaczego nie skorzystać z danych?
Nick Cox
3
@Nick Przepraszamy: miałeś rację. Wartość około działa dla odchylenia standardowego, gdy wielkość próbki wynosi około 15 do 50 ; 3 działa dla próbek o wielkości około 10 itd. Usunę mój poprzedni komentarz, aby nie mylić nikogo innego niż mnie! 41550310
whuber
1
@NickCox to stare rosyjskie źródło i wcześniej nie widziałem tej formuły.
Andy
3
Podawanie referencji rzadko jest złym pomysłem. Niech czytelnicy sami decydują, czy są interesujący czy dostępni. (Jest tu na przykład wielu ludzi, którzy potrafią czytać po rosyjsku.)
Nick Cox

Odpowiedzi:

17

W przykładowej o n niezależnie od rozkładu wartości F z PDF F , pdf wspólnego dystrybucji skrajnymi min ( x ) = x [ 1 ] i max ( x ) = x [ n ] jest proporcjonalna doxnFfmin(x)=x[1]max(x)=x[n]

f(x[1])(F(x[n])F(x[1]))n2f(x[n])dx[1]dx[n]=HF(x[1],x[n])dx[1]dx[n].

(Stała proporcjonalności jest odwrotnością współczynnika wielomianowego . Intuicyjnie ten wspólny plik PDF wyraża szansę znalezienia najmniejszej wartości z zakresu[x[1],x[1]+dx[1]), największej wartości z zakresu[x[n],x[n]+dx[n])(n1,n2,1)=n(n1)[x[1],x[1]+dx[1])[x[n],x[n]+dx[n]), a środkowe wartości między nimi w zakresie [ x [ 1 ] + d x [ 1 ] , x [ n ] ) . Gdy F jest ciągłe, możemy zastąpić ten środkowy zakres ( x [ 1 ] , x [ n ] ] , tym samym zaniedbując jedynie „nieskończenie małą” wartość prawdopodobieństwa. Powiązane prawdopodobieństwa, w porządku różniczkowym pierwszego rzędu, to f ( x [ 1 ]n2[x[1]+dx[1],x[n])F(x[1],x[n]]F ( x [ n ] ) d x [ n ] , i F ( x [ n ] ) - F ( x [ 1 ] ) , . R, obecnie co oczywiste, w którym wzór pochodzi)f(x[1])dx[1], f(x[n])dx[n],F(x[n])F(x[1]),

Taking the expectation of the range x[n]x[1] gives 2.53441 σ for any Normal distribution with standard deviation σ and n=6. The expected range as a multiple of σ depends on the sample size n:

Normal

These values were computed by numerically integrating (n1,n2,1)(yx)HF(x,y)dxdy over {(x,y)R2|xy}, with F set to the standard Normal CDF, and dividing by the standard deviation of F (which is just 1).

Podobny multiplikatywny związek między oczekiwanym zakresem a odchyleniem standardowym będzie obowiązywał dla dowolnej rodziny rozkładów w skali lokalizacji, ponieważ jest to właściwość samego kształtu rozkładu. Na przykład tutaj jest porównywalny wykres jednolitych rozkładów:

Uniform

i rozkłady wykładnicze:

Exponential

Wartości z poprzednich dwóch wykresów uzyskano przez dokładną - nie numeryczną - całkowanie, co jest możliwe dzięki względnie prostym formom algebraicznym i F w każdym przypadku. Dla rozkładów jednorodnych wynoszą one n - 1fF a dla rozkładów wykładniczych są oneγ+ψ(n)=γ+ Γ ( n )n1(n+1)12 gdzieγjest stałą Eulera, aψjest funkcją „polygamma”, logarytmiczną pochodną funkcji Eulera Gamma.γ+ψ(n)=γ+Γ(n)Γ(n)γψ

Chociaż różnią się (ponieważ te rozkłady wyświetlają szeroki zakres kształtów), trzy z grubsza zgadzają się wokół , co pokazuje, że mnożnik 2.5 nie zależy silnie od kształtu i dlatego może służyć jako wszechstronna, solidna ocena odchylenia standardowego gdy znane są zakresy małych podpróbek. (Rzeczywiście, bardzo gruboogoniasty rozkład t Studenta z trzema stopniami swobody wciąż ma mnożnik około 2,3 dla n = 6 , wcale nie tak daleko od 2,5 ).n=62.5t2.3n=62.5

whuber
źródło
6
Wonderful exposition! You may be interested to know that this appears to have been investigated back in the 1920s. See Tippet 1925. In Tippet's tables (Table X) the expected value for the range given a sample of size 6 is 2.53441σ. He shows the derivation of the complete distribution of the range for the normal distribution. This was used by David et.al. (1954) to calculate probability points of the range distribution for a test for normality (see D'Agostino & Stephens 9.3.3.4.2).
Avraham
@Avraham Dziękujemy za pouczające komentarze. Uderzyło mnie, gdy dodałem grafikę, że naprawdę sprytną częścią tego całego podejścia jest użycie podpróbek o rozmiarze szóstym, ponieważ tam wszystkie mnożniki są zwykle takie same, niezależnie od kształtu dystrybucji.
whuber
Dzięki! Tabele Tippet faktycznie dają odpowiedni mnożnik dla wszystkich liczb od 2 do 1000. Wspomina o problemach z obliczeniami; oczywiście było to w 1925 roku, na dobre 20 lat przed ENIAC.
Avraham
@ Whuber Czy możesz pokazać, jak obliczono liczbę (2.534)?
Andy
Zredagowałem odpowiedź, aby uwzględnić wyjaśnienia obliczeń.
whuber
4

To przybliżenie jest bardzo zbliżone do rzeczywistego odchylenia standardowego próbki. Napisałem szybki skrypt R, aby to zilustrować:

x = sample(1:10000,6000,replace=TRUE)

B = 100000
R = rep(NA,B)
for(i in 1:B){
    samp = sample(x,6)
    R[i] = max(samp)-min(samp)
}

mean(R)/2.534

sd(x)

co daje:

> mean(R)/2.534
[1] 2819.238
> 
> sd(x)
[1] 2880.924

Teraz nie jestem (jeszcze) pewien, dlaczego to działa, ale przynajmniej wygląda (na pierwszy rzut oka), że przybliżenie jest przyzwoite.

Edycja: Zobacz wyjątkowy komentarz @ Whuber (powyżej), dlaczego to działa


źródło
1
Rysujesz podpróbki o rozmiarze 6z mniej więcej równomiernego rozkładu. Dla naprawdę jednorodnego rozkładu stosunek wynosi103)/72,474. Rzeczywiście, gdybyś użył tego czynnika w swojej symulacji, uzyskałbyś wartość mean(R)/2.474równą2887,6, bardzo blisko sd(x).
whuber
Bardzo prawdziwe! > mean(R)/2.474 [1] 2887.611