Czy odchylenie standardowe danych nieujemnych może przekroczyć średnią?

15

Mam kilka trójkątnych siatek 3D. Statystyki dla obszarów trójkąta to:

  • Min. 0,000
  • Maks. 2341.141
  • Średni 56,317
  • Std dev 98,720

Czy to oznacza coś szczególnie przydatnego w odchyleniu standardowym, czy sugeruje, że istnieją błędy w jego obliczaniu, gdy liczby działają tak jak powyżej? Obszary z pewnością są dalekie od normalnej dystrybucji.

I jak ktoś wspomniał w jednej z odpowiedzi poniżej, rzecz, która naprawdę zaskoczyła mnie, że potrzeba tylko jednego SD od średniej, aby liczby stały się ujemne, a zatem poza domeną prawną.

Dzięki

Andy Dent
źródło
4
W zbiorze danych {2,2,2,202} przykładowe odchylenie standardowe wynosi 100 podczas gdy średnia wynosi 52 - dokładnie blisko tego, co obserwujesz.
whuber
5
Dla znanego (dla niektórych) przykładu średni wynik gry w blackjacka przez godzinę może wynosić 25 USD, ale ze standardowym odchyleniem, powiedzmy 100 USD (liczby dla ilustracji). Ten duży współczynnik zmienności ułatwia nakłonienie kogoś do myślenia, że ​​jest lepszy niż w rzeczywistości.
Michael McGowan
Obserwacji pytanie jest dość dobrze poinformowany, zbyt: to stawia granice na SD zestawu danych (nieujemną), biorąc pod uwagę średnią.
whuber

Odpowiedzi:

9

Nic nie wskazuje na to, że odchylenie standardowe musi być mniejsze lub większe niż średnia. Biorąc pod uwagę zestaw danych można zachować na myśli to samo, ale zmiany odchylenia standardowego do dowolnego stopnia dodając / odejmując liczbę dodatnią odpowiednio .

Korzystając z przykładowego zestawu danych @ Whuber, od jego komentarza do pytania: {2, 2, 2, 202}. Jak stwierdził @whuber: średnia wynosi 52, a odchylenie standardowe wynosi 100.

Teraz zaburz każdy element danych w następujący sposób: {22, 22, 22, 142}. Średnia nadal wynosi 52, ale odchylenie standardowe wynosi 60.

Varty
źródło
1
Jeśli dodasz do każdego elementu, zmienisz parametr lokalizacji , tj. Średnią. Zmieniasz dyspersję (tj. Odchylenie standardowe), mnożąc przez współczynnik skali (pod warunkiem, że średnia wynosi zero).
Dirk Eddelbuettel
@DirkEddelbuettel Masz rację. Naprawiłem odpowiedź i podałem przykład dla jasności.
varty
2
Nie podążam za przykładem. Nowy zestaw danych wyraźnie jest nie pochodzi od oryginału poprzez „dodanie lub odjęcie liczby dodatniej” od każdej z oryginalnych wartości.
whuber
3
Nie mogę go edytować, ponieważ nie wiem, co próbujesz powiedzieć. Jeśli możesz dowolnie dodać osobne wartości do każdej liczby w zestawie danych, zmieniasz tylko jeden zestaw wartości na zupełnie inny zestaw n wartości. Nie rozumiem, jak ma to związek z pytaniem, a nawet z akapitem otwierającym. Myślę, że każdy przyznałby, że takie zmiany mogą zmienić średnią i SD, ale to nie mówi nam, dlaczego SD zestawu nieujemnych danych może być dodatnią wielokrotnością jego średniej. nn
whuber
2
Masz rację: cytowane twierdzenie jest moje i nie pojawia się w twojej odpowiedzi. (Zdarza się jednak, że jest poprawny i odpowiedni. :-) Jedną rzeczą, którą próbuję przejść, jest to, że sama możliwość zmiany SD przy zachowaniu tego samego środka nie odpowiada na pytanie. Ile można zmienić SD (zachowując wszystkie dane nieujemne)? Inną kwestią, o której starałem się powiedzieć, jest to, że twój przykład nie ilustruje ogólnego, przewidywalnego procesu dokonywania takich zmian danych. To sprawia, że ​​wydaje się arbitralny, co niewiele pomaga.
whuber
9

Oczywiście są to niezależne parametry. Możesz ustawić proste eksploracje w R (lub innym preferowanym narzędziu).

R> set.seed(42)     # fix RNG
R> x <- rnorm(1000) # one thousand N(0,1)
R> mean(x)          # and mean is near zero
[1] -0.0258244
R> sd(x)            # sd is near one
[1] 1.00252
R> sd(x * 100)      # scale to std.dev of 100
[1] 100.252
R> 

Podobnie standaryzujesz dane, na które patrzysz, odejmując średnią i dzieląc przez odchylenie standardowe.

Edytuj I podążając za pomysłem @ whubera, oto nieskończona liczba zestawów danych zbliżonych do czterech pomiarów:

R> data <- c(0, 2341.141, rep(52, 545))
R> data.frame(min=min(data), max=max(data), sd=sd(data), mean=mean(data))
  min     max      sd    mean
1   0 2341.14 97.9059 56.0898
R> 
Dirk Eddelbuettel
źródło
Nie jestem pewien, czy rozumiem twój punkt widzenia. Nie są one całkowicie niezależne, ponieważ można zmienić średnią, zaburzając jeden punkt danych, a tym samym również zmienić odchylenie standardowe. Czy coś źle zinterpretowałem?
varty 18.11.11
Biorąc pod uwagę, że obszary trójkątów nie mogą być ujemne (co potwierdza minimalna wartość podana w pytaniu), można mieć nadzieję na przykład składający się wyłącznie z liczb nieujemnych.
whuber
(+1) Ponowna edycja: Spróbuj użyć 536 replikacji 52.15 :-).
whuber
Fajny jeden na 536 powtórzeń. Powinien zrobić binarne przeszukiwanie :)
Dirk Eddelbuettel
@Dirk „są to parametry niezależne”, rozważ przypadek, gdy jest bernouilli. wariancja i średnia nie są niezależne: v a r ( X ) = p ( 1 - p ) . Rozważ zmienną losową 100 > X >Xvar(X)=p(1p) , maksymalna możliwa wariancja jest ( 50 ) 2 teraz jeśli zmusić znaczy być równa jeden (czyli niższy niż 50 ) maksymalne odchylenie nie może być większa niż 99 / 100 * ( 1 )100>X>0(50)250 . Jest więcej przykładów zmiennych ograniczonych w przyrodzie niż gaussów? 99/100(1)2+(1/100)992
robin girard
7

Nie jestem pewien, dlaczego @Andy jest zaskoczony tym wynikiem, ale wiem, że nie jest sam. Nie jestem też pewien, co normalność danych ma wspólnego z faktem, że sd jest wyższy niż średnia. Generowanie zestawu danych, który jest normalnie rozproszony, jest dość proste; w rzeczywistości normalna norma ma średnią 0, sd 1. Trudno byłoby uzyskać normalnie dystrybuowany zestaw danych wszystkich wartości dodatnich o sd> średniej; rzeczywiście nie powinno to być możliwe (ale zależy to od wielkości próbki i jakiego testu normalności używasz ... przy bardzo małej próbce zdarzają się dziwne rzeczy)

Jednak po usunięciu warunku normalności, tak jak @Andy, nie ma powodu, dla którego wartość sd powinna być większa lub mniejsza od średniej, nawet dla wszystkich wartości dodatnich. Zrobi to pojedyncza wartość odstająca. na przykład

x <- runif (100, 1, 200) x <- c (x, 2000)

daje średnią 113 i SD 198 (oczywiście w zależności od nasion).

Ale większym pytaniem jest, dlaczego ludzie to zaskakują.

Nie uczę statystyki, ale zastanawiam się, co ze sposobem nauczania statystyki sprawia, że ​​to pojęcie jest powszechne.

Peter Flom - Przywróć Monikę
źródło
Nigdy nie studiowałem statystyki, tylko kilka jednostek matematyki inżynierskiej i to było trzydzieści lat temu. Inni ludzie w pracy, którzy, jak sądzę, lepiej rozumieli tę dziedzinę, mówili o reprezentowaniu złych danych przez „liczbę std devs od średniej”. Chodzi raczej o to, jak często wspominany jest std dev, niż o „nauczony” :-)
Andy Dent,
@Andy posiadający dużą liczbę odchyleń od średniej oznacza po prostu, że zmienna nie różni się znacząco od zera. To zależy od kontekstu (czy to jest znaczenie zmiennej losowej), ale w niektórych przypadkach możesz chcieć je usunąć?
robin girard
@ Peter widzi mój komentarz do Dirka, może to wyjaśniać „niespodziankę” w pewnym kontekście. Właściwie przez jakiś czas uczyłem statystyki i nigdy nie widziałem zaskoczenia, o którym mówisz. W każdym razie wolę studentów, którzy są zaskoczeni wszystkim, jestem prawie pewien, że jest to dobra pozycja epistemologiczna (lepiej niż zemdlenie pozycji absolutnie bez zaskoczenia :)).
robin girard
@AndyDent „złe” dane dla mnie oznaczają dane, które zostały nieprawidłowo zarejestrowane. Dane dalekie od średniej są wartościami odstającymi. Załóżmy na przykład, że mierzysz wysokość ludzi. Jeśli zmierzysz mnie i zarejestrujesz mój wzrost jako 7'5 'zamiast 5'7, to złe dane. Jeśli zmierzysz Yao Minga i zarejestrujesz jego wzrost jako 7'5 ", to dane odstające, ale nie złe. Niezależnie od tego, że jest bardzo daleki od średniej (coś w rodzaju 6 sds)
Peter Flom - Przywróć Monikę
@Peter Florn, W naszym przypadku mamy wartości odstające, których chcemy się pozbyć, ponieważ reprezentują trójkąty, które spowodują problemy algorytmiczne w przetwarzaniu siatki. Mogą nawet być „złymi danymi” w twoim znaczeniu, jeśli zostały utworzone przez wadliwe urządzenia skanujące lub konwersję z innych formatów :-) Inne kształty mogą mieć wartości odstające, które są legalnie dalekie od średniej, ale nie stanowią problemu. Jedną z bardziej interesujących rzeczy w tych danych jest to, że na obu końcach mamy „złe dane”, ale te małe nie są daleko od średniej.
Andy Dent,
6

Wystarczy dodać punkt ogólny, że z perspektywy rachunku różniczkowego i x 2 f ( x ) d x są powiązane nierównością Jensena , zakładając, że obie całki istnieją,

xf(x)dx
x2f(x)dx
Biorąc pod uwagę tę ogólną nierówność, nic nie stoi na przeszkodzie, aby wariancja stała się arbitralnie duża. Obserwujrozkład t Studentaz ν stopniami swobody, X T ( ν , μ , σ ) i przyjmuj Y = | X | którego drugi moment jest taki sam jak drugi moment X , E [ | X | 2 ] = ν
x2f(x)dx{xf(x)dx}2.
ν
XT(ν,μ,σ)
Y=|X|X gdyν>2. Więc idzie do nieskończoności, gdyνspada do2, podczas gdy średniaYpozostaje skończona, dopókiν>1.
E[|X|2]=νν2σ2+μ2,
ν>2ν2Yν>1
Xi'an
źródło
1
Zwróć uwagę na wyraźne ograniczenie wartości nieujemnych w pytaniu.
whuber
Przykład studenta można łatwo przetłumaczyć na przykład rozkładu wartości bezwzględnej studenta ...
Xi'an
1
Ale to oczywiście zmienia średnią :-). Pytanie dotyczy związku między SD a średnią (patrz jego tytuł). Nie mówię, że się mylisz; Po prostu (domyślnie) sugeruję, że twoja odpowiedź przy małym nakładzie pracy mogłaby bardziej bezpośrednio odpowiedzieć na pytanie.
whuber
@whuber: ok, zredagowałem powyższe, aby wziąć pod uwagę wartość bezwzględną (ja też wyprowadziłem średnią z wartości bezwzględnej, ale <a href=" ceremade.dauphine.fr/~xian/meanabs.pdf"> jest raczej niezgrabny </ a> ...)
Xi'an
3

Być może OP jest zaskoczony, że średnia -1 SD jest liczbą ujemną (szczególnie gdy minimum wynosi 0).

Oto dwa przykłady, które mogą wyjaśnić.

Załóżmy, że masz klasę 20 pierwszoklasistów, w której 18 ma 6 lat, 1 ma 5, a 1 7. Teraz dodaj 49-letniego nauczyciela. Średni wiek to 8,0, a standardowe odchylenie to 9,402.

Być może myślisz: jedno odchylenie standardowe dla tej klasy wynosi od -1,402 do 17,402 lat. Możesz być zaskoczony, że SD obejmuje ujemny wiek, co wydaje się nieuzasadnione.

Nie musisz się martwić ujemnym wiekiem (lub wykresami 3D rozciągającymi się poniżej minimum 0,0). Intuicyjnie nadal masz około dwóch trzecich danych w granicach 1 SD średniej. (Rzeczywiście masz 95% danych w granicach 2 SD średniej.)

Gdy dane przyjmą niestandardowy rozkład, zobaczysz takie zaskakujące wyniki.

Drugi przykład W swojej książce Fooled by Randomness Nassim Taleb rozpoczyna eksperyment myślowy z zawiązanymi oczami łucznikami strzelającymi do ściany o nieokreślonej długości. Łucznik może strzelać w zakresie od +90 stopni do -90 stopni.

Od czasu do czasu łucznik strzela strzałą równolegle do ściany i nigdy nie trafi. Zastanów się, jak daleko strzałka mija cel jako rozkład liczb. Odchylenie standardowe dla tego scenariusza byłoby inifinte.

rajah9
źródło
Reguła około 2/3 danych w granicach 1 SD średniej dotyczy normalnych danych. Ale dane w klasie są wyraźnie nienormalne (nawet jeśli przeszły jakiś test normalności z powodu małej wielkości próby). Przykład Taleba jest okropny. To przykład złej operacjonalizacji zmiennej. Biorąc pod uwagę, że zarówno średnia, jak i SD byłyby nieskończone. Ale to nonsens. „Jak daleko strzała tęskni” - dla mnie to odległość. Strzała, bez względu na to, jak zostanie wystrzelona, ​​wyląduje gdzieś. Zmierz odległość stamtąd do celu. Nigdy więcej nieskończoności.
Peter Flom - Przywróć Monikę
1
Tak, OP był wystarczająco zaskoczony, kiedy po raz pierwszy zobaczyłem średnią - 1 SD poszło negatywnie, że napisałem cały nowy zestaw testów jednostkowych przy użyciu danych z Excela, aby potwierdzić, że przynajmniej mój algorytm oblicza te same wartości. Ponieważ Excel musi być wiarygodnym źródłem, prawda?
Andy Dent
@Peter Reguła 2/3 (część reguły 68–95–99,7%) jest dobra dla wielu różnych zestawów danych, z których wiele jest nienormalnych, a nawet dla umiarkowanie przekrzywionych. (Reguła jest całkiem dobra w przypadku symetrycznych zestawów danych.) Niekończoność SD i średniej nie są „nonsensami”. Przykład Taleba jest jedną z niewielu nieskomplikowanych sytuacji, w których rozkład Cauchy'ego wyraźnie reguluje proces generowania danych. Nieskończoność SD nie wynika z możliwości pominięcia ściany, ale z rozkładu rzeczywistych trafień.
whuber
1
@whuber Byłem świadomy twojego pierwszego punktu, który jest dobry. Nie zgadzam się co do twojego drugiego punktu dotyczącego Taleba. Wydaje mi się, że to kolejny wymyślony przykład.
Peter Flom - Przywróć Monikę
3

X

fX(x)=βαΓ(α)xα1eβxI(0,)(x),
with α,β>0, is almost surely positive. Choose any mean m>0 and any standard deviation s>0. As long as they are positive, it does not matter if m>s or m<s. Putting α=m2/s2 and β=m/s2, the mean and standard deviation of X are E[X]=α/β=m and Var[X]=α/β2=s. With a big enough sample from the distribution of X, by the SLLN, the sample mean and sample standard deviation will be close to m and s. You can play with R to get a feeling about this. Here are examples with m>s and m<s.
> m <- 10
> s <- 1
> x <- rgamma(10000, shape = m^2/s^2, rate = m/s^2)
> mean(x)
[1] 10.01113
> sd(x)
[1] 1.002632

> m <- 1
> s <- 10
> x <- rgamma(10000, shape = m^2/s^2, rate = m/s^2)
> mean(x)
[1] 1.050675
> sd(x)
[1] 10.1139
Zen
źródło
1

As pointed out in the other answers, the mean x¯ and standard deviation σx are essentially unrelated in that it is not necessary for the standard deviation to be smaller than the mean. However, if the data are nonnegative, taking on values in [0,c], say, then, for large data sets (where the distinction between dividing by n or by n1 does not matter very much), the following inequality holds:

σxx¯(cx¯)c2
and so if x¯>c/2, we can be sure that σx will be smaller. Indeed, since σx=c/2 only for an extremal distribution (half the data have value 0 and the other half value c), σx<x¯ can hold in some cases when x¯<c/2 as well. If the data are measurements of some physical quantity that is nonnegative (e.g. area) and have an empirical distribution that is a good fit to a normal distribution, then σx will be considerably smaller than min{x¯,cx¯} since the fitted normal distribution should assign negligibly small probability to the events {X<0} and {X>c}.
Dilip Sarwate
źródło
4
I don't think the question is whether the dataset is normal; its non-normality is stipulated. The question concerns whether there might have been some error made in computing the standard deviation, because the OP is surprised that even in this obviously non-normal dataset the SD is much larger than the mean. If an error was not made, what can one conclude from such a large coefficient of variation?
whuber
9
Any answer or comment that claims the mean and sd of a dataset are unrelated is plainly incorrect, because both are functions of the same data and both will change whenever a single one of the data values is changed. This remark does bear some echoes of a similar sounding statement that is true (but not terribly relevant to the current question); namely, that the sample mean and sample sd of data drawn independently from a normal distribution are independent (in the probabilistic sense).
whuber
1

What you seem to have in mind implicitly is a prediction interval that would bound the occurrence of new observations. The catch is: you must postulate a statistical distribution compliant with the fact that your observations (triangle areas) must remain non-negative. Normal won't help, but log-normal might be just fine. In practical terms, take the log of observed areas, calculate the mean and standard deviation, form a prediction interval using the normal distribution, and finally evaluate the exponential for the lower and upper limits -- the transformed prediction interval won't be symmetric around the mean, and is guaranteed to not go below zero. This is what I think the OP actually had in mind.

Felipe G. Nievinski
źródło
0

Felipe Nievinski points to a real issue here. It makes no sense to talk in normal distribution terms when the distribution is clearly not a normal distribution. All-positive values with a relatively small mean and relatively large standard deviation cannot have a normal distribution. So, the task is to figure out what sort of distribution fits the situation. The original post suggests that a normal distribution (or some such) was clearly in mind. Otherwise negative numbers would not come up. Log normal, Rayleigh, Weibull come to mind ... I don't know but wonder what might be best in a case like this?

fred3
źródło