Próbuję uzyskać lepsze intuicyjne zrozumienie odchylenia standardowego.
Z tego, co rozumiem, jest reprezentatywna dla średniej różnic zestawu obserwacji w zbiorze danych ze średniej tego zbioru danych. Jednak NIE jest ona w rzeczywistości równa średnim różnicom, ponieważ nadaje większą wagę obserwacjom w porównaniu do średniej.
Powiedzmy, że mam następującą populację wartości -
Średnia to .
Jeśli przyjmę miarę spreadu w oparciu o wartość bezwzględną, otrzymam
Jeśli wezmę miarę spreadu na podstawie standardowego odchylenia, otrzymam
Wynik z odchyleniem standardowym jest większy, zgodnie z oczekiwaniami, ze względu na dodatkową wagę, jaką nadaje wartościom większym od średniej.
Ale jeśli powiedziano mi, że mam do czynienia z populacją ze średnią i odchyleniem standardowym 2,83, to jak miałbym wnioskować, że populacja składa się z wartości podobnych do \ {1, 3, 5, 7, 9 \ } ? Wydaje się, że liczba 2,83 jest bardzo dowolna ... Nie rozumiem, jak ją interpretować. Czy 2,83 oznacza, że wartości są rozłożone bardzo szeroko, czy wszystkie są ściśle skupione wokół średniej ...
Kiedy zostanie przedstawione oświadczenie, że masz do czynienia z populacją o średniej i odchyleniu standardowym co to mówi o populacji?
źródło
Odpowiedzi:
Moją intuicją jest to, że odchylenie standardowe to: miara rozprzestrzeniania się danych.
Masz dobrą rację, że to, czy jest ono szerokie, czy ciasne, zależy od tego, jakie jest nasze podstawowe założenie dotyczące dystrybucji danych.
Zastrzeżenie: Miara rozproszenia jest najbardziej pomocna, gdy rozkład danych jest symetryczny wokół średniej i ma wariancję stosunkowo zbliżoną do rozkładu normalnego. (Oznacza to, że jest w przybliżeniu normalny).
W przypadku, gdy dane są w przybliżeniu normalne, odchylenie standardowe ma interpretację kanoniczną:
(patrz pierwsza grafika na Wiki )
Oznacza to, że jeśli wiemy, że średnia populacji wynosi 5, a odchylenie standardowe wynosi 2,83, i zakładamy, że rozkład jest w przybliżeniu Normalny, powiedziałbym, że jestem dość pewien, że jeśli dokonamy (wielkich) wielu obserwacji, tylko 5% będzie być mniejsze niż 0,4 = 5 - 2 * 2,3 lub większe niż 9,6 = 5 + 2 * 2,3.
Zauważ, jaki wpływ ma odchylenie standardowe na nasz przedział ufności? (im większy spread, tym większa niepewność)
Ponadto, w ogólnym przypadku, gdy dane nie są nawet w przybliżeniu normalne, ale wciąż symetryczne, wiesz, że istnieją pewne dla których:α
Możesz albo nauczyć się z podpróbki, albo założyć α = 2, a to daje często dobrą praktyczną regułę do obliczania w głowie, jakich przyszłych spodziewanych obserwacji lub które z nowych obserwacji można uznać za wartości odstające. (pamiętaj jednak o zastrzeżeniu!)α α=2
Wydaje mi się, że każde pytanie „szerokie lub ciasne” powinno również zawierać: „w stosunku do czego?”. Jedną z sugestii może być użycie dobrze znanej dystrybucji jako odniesienia. W zależności od kontekstu warto zastanowić się: „Czy jest znacznie szerszy, czy węższy niż normalny / Poissona?”.
EDYCJA: W oparciu o przydatną wskazówkę w komentarzach, jeszcze jeden aspekt dotyczący odchylenia standardowego jako miary odległości.
Jeszcze inną intuicją przydatności odchylenia standardowego jest to, że jest to miara odległości między przykładowymi danymi x 1 , … , x N i jego średnią ˉ x :sN x1,…,xN x¯
Dla porównania średni błąd kwadratu (MSE), jeden z najpopularniejszych mierników błędów w statystykach, definiuje się jako:
Można postawić pytania, dlaczego powyższa funkcja odległości? Dlaczego na przykład odległości kwadratowe, a nie bezwzględne? I dlaczego przyjmujemy pierwiastek kwadratowy?
Posiadanie kwadratowej odległości, czyli błędu, ma tę zaletę, że możemy je zarówno rozróżnić, jak i łatwo zminimalizować. Jeśli chodzi o pierwiastek kwadratowy, zwiększa interpretowalność, ponieważ przekształca błąd z powrotem do skali naszych obserwowanych danych.
źródło
Może pomóc uświadomić sobie, że średnia jest analogiczna do środka masy . Wariancja jest momentem bezwładności . Odchylenie standardowe to promień bezwładności .
Z perspektywy historycznej spójrz na:
George Airy (1875) O algebraicznej i numerycznej teorii błędów obserwacji i kombinacji obserwacji
Karl Pearson (1894) Wkład w matematyczną teorię ewolucji.
Ten wykres z Airy 1875 pokazuje różne miary odchyleń, które można łatwo przekształcić (str. 17). Odchylenie standardowe nazywane jest „błędem średniej kwadratowej”. Omówiono go również na stronach 20–21, a on uzasadnia jego użycie na stronie 48, pokazując, że najłatwiej jest go obliczyć ręcznie, ponieważ nie ma potrzeby oddzielnego obliczania błędów ujemnych i dodatnich. Termin odchylenie standardowe został wprowadzony przez Pearson w artykule cytowanym powyżej na stronie 75.
Nawiasem mówiąc: należy zauważyć, że użyteczność odchylenia standardowego zależy od zastosowania „prawa błędów”, znanego również jako „krzywa normalna”, które wynika z „bardzo wielu niezależnych przyczyn błędów” (Airy 1875 str. 7). Nie ma powodu, aby oczekiwać, że odchylenia od średniej grupy każdej osoby powinny być zgodne z tym prawem. W wielu przypadkach dla układów biologicznych logarytmiczny rozkład normalny jest lepszym założeniem niż normalny. Widzieć:
Limpert i wsp. (2001) Log-normal Distribution into the Sciences: Keys and Clues
Ponadto wątpliwe jest, czy należy traktować zmienność indywidualną jako hałas, ponieważ proces generowania danych działa na poziomie jednostki, a nie grupy.
źródło
Odchylenie standardowe rzeczywiście przypisuje większą wagę tym, którzy znajdują się dalej od średniej, ponieważ jest to pierwiastek kwadratowy średniej z kwadratowych odległości. Przyczyny zastosowania tego (zamiast proponowanego średniego bezwzględnego odchylenia lub mediany bezwzględnego odchylenia, które stosuje się w solidnych statystykach), częściowo wynikają z faktu, że rachunek różniczkujący jest łatwiejszy w przypadku wielomianów niż w przypadku wartości bezwzględnych. Jednak często chcemy podkreślić skrajne wartości.
Co do pytania o sens intuicyjny - rozwija się ono z czasem. Masz rację, że więcej niż jeden zestaw liczb może mieć tę samą średnią i sd; dzieje się tak, ponieważ średnia i sd to tylko dwie części informacji, a zestaw danych może składać się z 5 części (jako 1,3,5,7,9) lub więcej.
To, czy średnia 5 i sd 2,83 jest „szeroka” czy „wąska”, zależy od dziedziny, w której pracujesz.
Gdy masz tylko 5 liczb, łatwo jest zajrzeć do pełnej listy; gdy masz wiele liczb, bardziej intuicyjne sposoby myślenia o rozłożeniu obejmują takie rzeczy, jak podsumowanie pięciu liczb lub, jeszcze lepiej, wykresy, takie jak wykres gęstości.
źródło
Odchylenie standardowe mierzy odległość twojej populacji od średniej jako zmienne losowe.
Powodem, dla którego przechodzimy do funkcji i teorii miary jest to, że musimy mieć systematyczny sposób omawiania, w jaki sposób dwie przestrzenie prawdopodobieństwa są takie same, aż do zdarzeń, które mają zerową szansę wystąpienia. Teraz, kiedy przeszliśmy do funkcji, potrzebujemy poczucia dystansu.
źródło