Mam kilka trójkątnych siatek 3D. Statystyki dla obszarów trójkąta to:
- Min. 0,000
- Maks. 2341.141
- Średni 56,317
- Std dev 98,720
Czy to oznacza coś szczególnie przydatnego w odchyleniu standardowym, czy sugeruje, że istnieją błędy w jego obliczaniu, gdy liczby działają tak jak powyżej? Obszary z pewnością są dalekie od normalnej dystrybucji.
I jak ktoś wspomniał w jednej z odpowiedzi poniżej, rzecz, która naprawdę zaskoczyła mnie, że potrzeba tylko jednego SD od średniej, aby liczby stały się ujemne, a zatem poza domeną prawną.
Dzięki
distributions
mean
standard-deviation
Andy Dent
źródło
źródło
Odpowiedzi:
Nic nie wskazuje na to, że odchylenie standardowe musi być mniejsze lub większe niż średnia. Biorąc pod uwagę zestaw danych można zachować na myśli to samo, ale zmiany odchylenia standardowego do dowolnego stopnia dodając / odejmując liczbę dodatnią odpowiednio .
Korzystając z przykładowego zestawu danych @ Whuber, od jego komentarza do pytania: {2, 2, 2, 202}. Jak stwierdził @whuber: średnia wynosi 52, a odchylenie standardowe wynosi 100.
Teraz zaburz każdy element danych w następujący sposób: {22, 22, 22, 142}. Średnia nadal wynosi 52, ale odchylenie standardowe wynosi 60.
źródło
Oczywiście są to niezależne parametry. Możesz ustawić proste eksploracje w R (lub innym preferowanym narzędziu).
Podobnie standaryzujesz dane, na które patrzysz, odejmując średnią i dzieląc przez odchylenie standardowe.
Edytuj I podążając za pomysłem @ whubera, oto nieskończona liczba zestawów danych zbliżonych do czterech pomiarów:
źródło
Nie jestem pewien, dlaczego @Andy jest zaskoczony tym wynikiem, ale wiem, że nie jest sam. Nie jestem też pewien, co normalność danych ma wspólnego z faktem, że sd jest wyższy niż średnia. Generowanie zestawu danych, który jest normalnie rozproszony, jest dość proste; w rzeczywistości normalna norma ma średnią 0, sd 1. Trudno byłoby uzyskać normalnie dystrybuowany zestaw danych wszystkich wartości dodatnich o sd> średniej; rzeczywiście nie powinno to być możliwe (ale zależy to od wielkości próbki i jakiego testu normalności używasz ... przy bardzo małej próbce zdarzają się dziwne rzeczy)
Jednak po usunięciu warunku normalności, tak jak @Andy, nie ma powodu, dla którego wartość sd powinna być większa lub mniejsza od średniej, nawet dla wszystkich wartości dodatnich. Zrobi to pojedyncza wartość odstająca. na przykład
x <- runif (100, 1, 200) x <- c (x, 2000)
daje średnią 113 i SD 198 (oczywiście w zależności od nasion).
Ale większym pytaniem jest, dlaczego ludzie to zaskakują.
Nie uczę statystyki, ale zastanawiam się, co ze sposobem nauczania statystyki sprawia, że to pojęcie jest powszechne.
źródło
Wystarczy dodać punkt ogólny, że z perspektywy rachunku różniczkowego i ∫ x 2 f ( x ) d x są powiązane nierównością Jensena , zakładając, że obie całki istnieją,
źródło
Być może OP jest zaskoczony, że średnia -1 SD jest liczbą ujemną (szczególnie gdy minimum wynosi 0).
Oto dwa przykłady, które mogą wyjaśnić.
Załóżmy, że masz klasę 20 pierwszoklasistów, w której 18 ma 6 lat, 1 ma 5, a 1 7. Teraz dodaj 49-letniego nauczyciela. Średni wiek to 8,0, a standardowe odchylenie to 9,402.
Być może myślisz: jedno odchylenie standardowe dla tej klasy wynosi od -1,402 do 17,402 lat. Możesz być zaskoczony, że SD obejmuje ujemny wiek, co wydaje się nieuzasadnione.
Nie musisz się martwić ujemnym wiekiem (lub wykresami 3D rozciągającymi się poniżej minimum 0,0). Intuicyjnie nadal masz około dwóch trzecich danych w granicach 1 SD średniej. (Rzeczywiście masz 95% danych w granicach 2 SD średniej.)
Gdy dane przyjmą niestandardowy rozkład, zobaczysz takie zaskakujące wyniki.
Drugi przykład W swojej książce Fooled by Randomness Nassim Taleb rozpoczyna eksperyment myślowy z zawiązanymi oczami łucznikami strzelającymi do ściany o nieokreślonej długości. Łucznik może strzelać w zakresie od +90 stopni do -90 stopni.
Od czasu do czasu łucznik strzela strzałą równolegle do ściany i nigdy nie trafi. Zastanów się, jak daleko strzałka mija cel jako rozkład liczb. Odchylenie standardowe dla tego scenariusza byłoby inifinte.
źródło
R
to get a feeling about this. Here are examples withźródło
As pointed out in the other answers, the meanx¯ and standard deviation
σx are essentially unrelated in that it is not necessary for the standard deviation to be smaller than the mean. However, if the data are nonnegative, taking on values in [0,c] , say, then, for large data sets (where the distinction between dividing by n or by n−1 does not matter very much), the following inequality
holds:
źródło
What you seem to have in mind implicitly is a prediction interval that would bound the occurrence of new observations. The catch is: you must postulate a statistical distribution compliant with the fact that your observations (triangle areas) must remain non-negative. Normal won't help, but log-normal might be just fine. In practical terms, take the log of observed areas, calculate the mean and standard deviation, form a prediction interval using the normal distribution, and finally evaluate the exponential for the lower and upper limits -- the transformed prediction interval won't be symmetric around the mean, and is guaranteed to not go below zero. This is what I think the OP actually had in mind.
źródło
Felipe Nievinski points to a real issue here. It makes no sense to talk in normal distribution terms when the distribution is clearly not a normal distribution. All-positive values with a relatively small mean and relatively large standard deviation cannot have a normal distribution. So, the task is to figure out what sort of distribution fits the situation. The original post suggests that a normal distribution (or some such) was clearly in mind. Otherwise negative numbers would not come up. Log normal, Rayleigh, Weibull come to mind ... I don't know but wonder what might be best in a case like this?
źródło