Wartość, która zwiększa odchylenie standardowe

12

Zastanawia mnie następujące zdanie:

„Aby zwiększyć standardowe odchylenie zestawu liczb, należy dodać wartość, która jest więcej niż jedno odchylenie standardowe od średniej”

Co jest tego dowodem ? Wiem oczywiście, jak definiujemy odchylenie standardowe, ale tę część wydaje mi się jakoś tęsknić. Jakieś komentarze?

JohnK
źródło
1
Czy próbowałeś opracować algebrę?
Alecos Papadopoulos
Tak, mam. Odejmowałem wariancję próbki n wartości od wariancji wartości n + 1 i wymagałem, aby różnica była większa od zera. Jednak nie potrafię tego rozgryźć.
JohnK
3
Jednym z najprostszych sposobów jest różnicowanie algorytmu względem nowej wartości a następnie integracja, aby pokazać, że jeśli wprowadzenie zwiększa wariancję, to gdzie jest średnią z pierwszych wartości, a jest ich oszacowaniem wariancji. x n ( x n - ˉ x n - 1 ) 2nxnxn ˉ x n-1n-1vn-1(xnx¯n1)2nn1vn1x¯n1n1vn1
whuber
Okej, ale czy można to pokazać za pomocą prostej algebry? Moja wiedza na temat statystyk nie jest tak zaawansowana.
JohnK
@JohnK, czy możesz podać źródło cytatu?
Pe Dro

Odpowiedzi:

20

Dla dowolnych liczb ze średnią , wariancja jest podana przez Stosowanie do podanego zestawu liczb które dla wygody przyjmujemy w prezentacji, że mają średnią , mamy to y 1 , y 2 , , y N ˉ y = 1Ny1,y2,,yN σ 2y¯=1Ni=1Nyi(1)nx1,x2,xn

σ2=1N1i=1N(yiy¯)2=1N1i=1N(yi22yiy¯+y¯2)=1N1[(i=1Nyi2)2N(y¯)2+N(y¯)2](1)σ2=1N1i=1N(yi2(y¯)2)
(1)nx1,x2,xnσ2=1x¯=0 xn+11
σ2=1n1i=1n(xi2(x¯)2)=1n1i=1nxi2
Jeśli dodamy teraz nową obserwację do tego zestawu danych, nowa średnia zestawu danych to podczas gdy nowa wariancja to Więcmusi być większy niżxn+1σ 2
1n+1i=1n+1xi=nx¯+xn+1n+1=xn+1n+1
|
σ^2=1ni=1n+1(xi2xn+12(n+1)2)=1n[((n1)σ2+xn+12)xn+12n+1]=1n[(n1)σ2+nn+1xn+12]>σ2 only if xn+12>n+1nσ2.
σ |xn+1| xn+1σ1+1n lub, bardziej ogólnie, musi różnić się od średniej oryginalnego zestawu danych o więcej niż , aby rozszerzony zestaw danych miał większą wariancję niż oryginalny zestaw danych. Zobacz także odpowiedź Raya Koopmana, która wskazuje, że nowa wariancja jest większa, równa lub mniejsza niż oryginalna wariancja, ponieważ różni się od średniej o więcej niż, dokładnie lub mniej niż .xn+1 σx¯σ1+1n σ xn+1σ1+1n
Dilip Sarwate
źródło
5
+1 Wreszcie ktoś ma rację ... ;-) Stwierdzenie, które należy udowodnić, jest poprawne; po prostu nie jest ciasno. Nawiasem mówiąc, możesz również wybrać jednostki miary, aby uzyskać , co dodatkowo upraszcza obliczenia, zmniejszając je do około dwóch linii. σ2=1
whuber
Sugeruję użycie S zamiast sigma w pierwszym zestawie równań i dzięki za wyprowadzenie. Dobrze było wiedzieć :)
Theoden
3

Zagadkowe stwierdzenie daje warunek konieczny, ale niewystarczający, aby standardowe odchylenie wzrosło. Jeśli stara wielkość próby wynosi , stara średnia to , stare odchylenie standardowe to , a nowy punkt jest dodawany do danych, to nowe odchylenie standardowe będzie mniejsze niż, równe lub większe niż zgodnie z jakojest mniejsze niż, równe lub większe niż .m s x s |nmsxss |xm|s1+1/n

Ray Koopman
źródło
1
Czy masz pod ręką dowód?
JohnK
2

Pomijając algebrę (która również działa) pomyśl o tym w ten sposób: odchylenie standardowe jest pierwiastkiem kwadratowym wariancji. Wariancja jest średnią kwadratowych odległości od średniej. Jeśli dodamy wartość bliższą średniej niż ta, wariancja zmniejszy się. Jeśli dodamy wartość, która jest większa od średniej, wzrośnie.

Dotyczy to każdej średniej wartości, które nie są ujemne. Jeśli dodasz wartość wyższą niż średnia, średnia wzrośnie. Jeśli dodasz mniejszą wartość, zmniejsza się.

Peter Flom - Przywróć Monikę
źródło
Chciałbym również zobaczyć rygorystyczny dowód. Rozumiejąc zasadę, zastanawiam się, że wartość musi być o co najmniej 1 odchylenie od średniej. Dlaczego dokładnie 1?
JohnK
Nie rozumiem, co jest mylące. Wariancja jest średnią. Jeśli dodasz coś większego niż średnia (to znaczy więcej niż 1 sd), to wzrośnie. Ale nie jestem zwolennikiem formalnych dowodów
Peter Flom - Przywróć Monikę
Może być większy od średniej o 0,2 odchylenia standardowego. Dlaczego więc nie miałby wzrosnąć?
JohnK
Nie, nie większa niż średnia danych, większa niż wariancja, która jest średnią z kwadratowych odległości.
Peter Flom - Przywróć Monikę
4
Jest to mylące, ponieważ dodanie nowej wartości zmienia średnią, więc zmieniają się wszystkie reszty. Można sobie wyobrazić, że nawet gdy nowa wartość jest daleka od starej średniej, jej wkład w SD można by skompensować poprzez zmniejszenie sumy kwadratów reszt pozostałych wartości. Jest to jeden z wielu powodów, dla których rygorystyczne dowody są przydatne: zapewniają one nie tylko bezpieczeństwo wiedzy, ale także wgląd (a nawet nowe informacje). Na przykład, dowód pokaże, że trzeba dodać nową wartość, która jest ściśle dalej niż SD od średniej w celu zwiększenia SD.
whuber
2

Zacznę od algebry, ale nie wezmę tego do końca. Najpierw ustandaryzuj dane, odejmując średnią i dzieląc przez odchylenie standardowe:Zauważ, że jeśli mieści się w obrębie jednego standardowego odchylenia od średniej, wynosi między -1 a 1. Z będzie wynosić 1, jeśli jest dokładnie o jeden sd od średniej. Następnie spójrz na swoje równanie dla odchylenia standardowego: Co stanie się z jeśli jest między -1 i 1?xZ

Z=xμσ.
xZσ = x σZN
σ=i=1NZi2N1
σZN
wcampbell
źródło
Liczba, której wartość bezwzględna jest mniejsza niż 1, po podniesieniu do kwadratu będzie również mniejsza niż 1 w abs. wartość. Jednak nie rozumiem, że nawet jeśli Z_N mieści się w tej kategorii, dodajemy wartość dodatnią do σ, więc czy nie powinna ona wzrosnąć?
JohnK
Tak, dodajesz wartość dodatnią, ale będzie ona mniejsza niż twoje średnie odchylenie od średniej, a zatem zmniejszy sigma. Może bardziej sensowne byłoby rozważenie tej wartości jako . ZN+1
wcampbell
1
1) Nie zapomnij, że dodając tę ​​wartość, zwiększasz również o 1. 2) Nie dodajesz tej wartości do , dodajesz ją do . σ Z 2 iNσZi2
jbowman
Dokładnie to, co próbowałem wyrazić!
wcampbell
ZiN1