W książce „New Comprehensive Mathematics for O Level” Greera (1983) widzę uśrednione odchylenie obliczone w następujący sposób:
Zsumuj bezwzględne różnice między pojedynczymi wartościami a średnią. Więc zdobądź jego średnią. W rozdziale tym stosuje się określenie średnie odchylenie .
Ale ostatnio widziałem kilka referencji, które używają terminu odchylenie standardowe i to właśnie robią:
Oblicz kwadraty różnic między pojedynczymi wartościami a średnią. Następnie uzyskaj ich średnią i wreszcie źródło odpowiedzi.
Wypróbowałem obie metody na wspólnym zbiorze danych, a ich odpowiedzi są różne. Nie jestem statystykiem. Zdezorientowałem się, próbując uczyć dzieci dewiacji.
Krótko mówiąc, czy terminy odchylenie standardowe i odchylenie średnie są takie same, czy też mój stary podręcznik jest błędny?
Odpowiedzi:
Oba odpowiadają, jak daleko twoje wartości są rozłożone wokół średniej z obserwacji.
Obserwacja, która wynosi 1 poniżej średniej, jest równie „daleka” od średniej, jak wartość, która jest 1 powyżej średniej. Dlatego należy zaniedbać znak odchylenia. Można to zrobić na dwa sposoby:
Oblicz wartość bezwzględną odchyleń i zsumuj je.
Wyrównuj odchylenia i zsumuj te kwadraty. Z powodu kwadratu większą wagę przywiązujesz do dużych odchyleń, a zatem suma tych kwadratów będzie inna niż suma średnich.
Po obliczeniu „sumy odchyleń bezwzględnych” lub „pierwiastka kwadratowego z sumy odchyleń do kwadratu” uśredniasz je, aby uzyskać odpowiednio „odchylenie średnie” i „odchylenie standardowe”.
Średnie odchylenie jest rzadko stosowane.
źródło
Obecnie wartości statystyczne są obliczane głównie przez programy komputerowe (Excel, ...), a nie przez ręczne kalkulatory. Dlatego uważam, że obliczanie „odchylenia średniego” nie jest bardziej kłopotliwe niż obliczanie „odchylenia standardowego”. Chociaż odchylenie standardowe może mieć „... właściwości matematyczne, które czynią go bardziej użytecznym w statystyce”, w rzeczywistości jest to zniekształcenie pojęcia wariancji od średniej, ponieważ nadaje ona dodatkowe znaczenie punktom danych dalekim od średniej. Może to zająć trochę czasu, ale ja, na przykład, mam nadzieję, że statystycy wracają do częstszego używania „średniego odchylenia” podczas omawiania rozkładu między punktami danych - dokładniej odzwierciedla to, jak faktycznie myślimy o rozkładzie.
źródło
Oba mierzą tę samą koncepcję, ale nie są równe.
Powodem, dla którego preferowane jest odchylenie standardowe, jest to, że łatwiej jest matematycznie pracować później, gdy obliczenia stają się bardziej skomplikowane.
źródło
@itsols, dodam do ważnego pojęcia Kaspera, że
The mean deviation is rarely used
. Dlaczego odchylenie standardowe jest ogólnie uważane za lepszą miarę zmienności niż średnie odchylenie bezwzględne? Ponieważ średnia arytmetyczna jest umiejscowieniem minimalnej sumy kwadratów (a nie sumy absolutnych) odchyleń od niej.Załóżmy, że chcesz ocenić stopień altruizmu. Wtedy prawdopodobnie nie zapytasz osoby o to, ile gotów jest dać w „ogólnej sytuacji” życia. Zamiast tego zdecydujesz się zapytać, ile jest gotów zrobić w sytuacji ograniczonej, w której ma minimalne możliwe zasoby na własne utrzymanie. Tj. Jaka jest ilość indywidualnego altruizmu w sytuacji, gdy ta ilość jest minimalna dla jednostki?
Podobnie jaki jest stopień zmienności tych danych? Intuicyjnie najlepszym wskaźnikiem pomiarowym jest ten, który jest minimalizowany (lub maksymalizowany) aż do granicy w tym kontekście. Kontekst jest „wokół średniej arytmetycznej”. Następnie św. Odchylenie jest najlepszym wyborem w tym sensie. Jeśli kontekst był „wokół mediany”, oznacza to | odchylenie | byłby najlepszym wyborem, ponieważ mediana jest miejscem minimalnej sumy absolutnych odchyleń od niej.
źródło
Warto dodać, że najbardziej prawdopodobnym powodem, dla którego twój 30-letni podręcznik użył bezwzględnego odchylenia średniego w przeciwieństwie do odchylenia standardowego, jest to, że łatwiej jest go obliczyć ręcznie (bez kwadratów / pierwiastków kwadratowych). Teraz, gdy kalkulatory są łatwo dostępne dla uczniów szkół średnich, nie ma powodu, aby nie prosić ich o obliczenie odchylenia standardowego.
Nadal istnieją sytuacje, w których odchylenia bezwzględne są stosowane zamiast odchyleń standardowych w złożonym dopasowaniu modelu. Odchylenia bezwzględne są mniej wrażliwe na skrajne wartości odstające (wartości dalekie od średniej / linii trendu) w porównaniu do odchyleń standardowych, ponieważ nie zwiększają tej odległości przed dodaniem jej do wartości z innych punktów danych. Ponieważ metody dopasowywania modeli mają na celu zmniejszenie całkowitego odchylenia od linii trendu (zgodnie z tym, które odchylenie jest metodą obliczeniową), metody wykorzystujące odchylenie standardowe mogą ostatecznie stworzyć linię trendu, która odbiega od większości punktów, aby być bliżej wartości odstającej . Zastosowanie bezwzględnych odchyleń zmniejsza to zniekształcenie, ale kosztem skomplikowania obliczeń linii trendu.
Jest tak, ponieważ, jak zauważyli inni, odchylenie standardowe ma właściwości matematyczne i zależności, które ogólnie sprawiają, że jest bardziej przydatny w statystyce. Ale „użytecznego” nigdy nie należy mylić z doskonałym.
źródło
Oba mierzą rozproszenie danych, obliczając odległość danych do jego średniej.
Różnica między tymi dwiema normami polega na tym, że odchylenie standardowe oblicza kwadrat różnicy, podczas gdy średnie odchylenie bezwzględne uwzględnia tylko różnicę bezwzględną. Stąd duże wartości odstające spowodują większe rozproszenie przy zastosowaniu odchylenia standardowego zamiast innej metody. Odległość euklidesowa jest rzeczywiście częściej stosowana. Głównym powodem jest odchylenie standardowemają dobre właściwości, gdy dane są normalnie dystrybuowane. Dlatego przy tym założeniu zaleca się jego użycie. Jednak ludzie często przyjmują to założenie dla danych, które w rzeczywistości nie są normalnie dystrybuowane, co stwarza problemy. Jeśli Twoje dane nie są normalnie rozpowszechniane, nadal możesz użyć odchylenia standardowego, ale powinieneś zachować ostrożność przy interpretacji wyników.
Na koniec powinieneś wiedzieć, że obie miary dyspersji są szczególnymi przypadkami odległości Minkowskiego , dla p = 1 ip = 2. Możesz zwiększyć p, aby uzyskać inne miary rozproszenia danych.
źródło
Są to podobne miary, które próbują kwantyfikować to samo pojęcie. Zazwyczaj używasz św. odchylenie, ponieważ ma ładne właściwości, jeśli przyjmujesz pewne założenia dotyczące rozkładu podstawowego.
Z drugiej strony bezwzględna wartość odchylenia średniego powoduje pewne problemy z perspektywy matematycznej, ponieważ nie można jej rozróżnić i nie można jej łatwo przeanalizować. Trochę dyskusji tutaj .
źródło
Nie, mylisz się. Żartuję. Istnieje jednak wiele uzasadnionych powodów, dla których chcielibyśmy obliczyć średnie odchylenie zamiast formalnego standardu, i w ten sposób zgadzam się z poglądem moich inżynierów Braci. Oczywiście, jeśli obliczam statystyki, aby porównać je z istniejącą pracą, która wyraża zarówno jakościowe, jak i ilościowe wnioski, wolę trzymać się standardowego. Załóżmy na przykład, że staram się biegać szybkoalgorytmy wykrywania anomalii na danych binarnych generowanych maszynowo. Moim ostatecznym celem nie są porównania naukowe. Ale interesuje mnie fundamentalne wnioskowanie o „rozprzestrzenianiu się” określonego przepływu danych o jego średniej. Interesuje mnie również iteracyjne i tak wydajne, jak to możliwe. W cyfrowym sprzęcie elektronicznym cały czas bawimy się w nieczyste sztuczki - destylujemy multiplikacje i podziały odpowiednio na lewe i prawe przesunięcia, a dla „obliczania” wartości bezwzględnych po prostu upuszczamy bit znaku (i obliczamy uzupełnienie jednego lub dwóch, jeśli to konieczne , obie łatwe transformacje). Tak więc, moim wyborem jest obliczenie go w jak najbardziej przeciągający sposób i zastosować liniowe progi do moich obliczeń w celu szybkiego wykrycia anomalii w pożądanych oknach czasowych.
źródło
Te dwa środki rzeczywiście się różnią. Pierwszy jest często określany jako średnie bezwzględne odchylenie (MAD), a drugi to odchylenie standardowe (STD). W aplikacjach osadzonych o bardzo ograniczonej mocy obliczeniowej i ograniczonej pamięci programu unikanie obliczania pierwiastka kwadratowego może być bardzo pożądane.
Z szybkiego testu zgrubnego wydaje się, że MAD = f * STD z f gdzieś pomiędzy 0,78 a 0,80 dla zestawu losowych próbek rozmieszczonych metodą gaussa.
źródło
Amar Sagoo ma bardzo dobry artykuł wyjaśniający to: [ http://blog.amarsagoo.info/2007/09/making-sense-of-standard-deviation.html]
Aby dodać własną próbę intuicyjnego zrozumienia:
Średnie odchylenie jest przyzwoitym sposobem zapytania o odległość hipotetycznego „średniego” punktu od średniej, ale tak naprawdę nie działa w przypadku pytania o odległość wszystkich punktów od siebie lub o to, jak „rozłożone” są dane.
Odchylenie standardowe pyta o to, jak daleko od siebie znajdują się wszystkie punkty, dlatego zawiera bardziej przydatne informacje niż tylko odchylenie średnie (dlatego właśnie odchylenie średnie jest zwykle używane tylko jako krok w kierunku zrozumienia odchylenia standardowego).
Dobrą analogią jest twierdzenie Pitagorasa. Twierdzenie Pitagorasa mówi nam o odległości między punktami w dwóch wymiarach, biorąc odległość poziomą i odległość pionową, podnosząc je do kwadratu, dodając kwadraty i biorąc pierwiastek kwadratowy z sumy.
Jeśli przyjrzysz się temu uważnie, wzór na odchylenie standardowe (populacja) jest zasadniczo taki sam jak twierdzenie Pitagorasa, ale ma znacznie więcej niż dwa wymiary (i używa odległości od każdego punktu do średniej jako odległości w każdym wymiarze). Jako taki daje najdokładniejszy obraz „odległości” między wszystkimi punktami w zbiorze danych.
Aby przesunąć tę analogię nieco dalej, średnie bezwzględne odchylenie byłoby jak wzięcie średniej odległości poziomych i pionowych, która jest krótsza niż odległość całkowita, podczas gdy suma bezwzględnego odchylenia byłaby dodaniem odległości poziomych i pionowych, które są dłuższe niż rzeczywista odległość.
źródło
Odchylenie standardowe reprezentuje dyspersję z powodu losowych procesów. W szczególności wiele fizycznych pomiarów, które prawdopodobnie wynikają z sumy wielu niezależnych procesów, ma rozkład normalny (krzywa dzwonowa).
Innymi słowy, odchylenie standardowe jest terminem wynikającym z sumowania niezależnych zmiennych losowych. Nie zgadzam się więc z niektórymi odpowiedziami podanymi tutaj - odchylenie standardowe nie jest tylko alternatywą dla odchylenia średniego, które „okazuje się być wygodniejsze dla późniejszych obliczeń”. Odchylenie standardowe jest właściwym sposobem modelowania dyspersji dla zjawisk o rozkładzie normalnym.
Jeśli spojrzysz na równanie, zobaczysz, że odchylenie standardowe w większym stopniu odważa większe odchylenia od średniej. Intuicyjnie możesz myśleć o średnim odchyleniu jako o pomiarze rzeczywistego średniego odchylenia od średniej, podczas gdy odchylenie standardowe stanowi rozkład w kształcie dzwonu, czyli „normalny” rozkład wokół średniej. Więc jeśli twoje dane są normalnie rozłożone, odchylenie standardowe mówi ci, że jeśli spróbujesz więcej wartości, ~ 68% z nich znajdzie się w obrębie jednego odchylenia standardowego wokół średniej.
Z drugiej strony, jeśli masz pojedynczą zmienną losową, rozkład może wyglądać jak prostokąt, z jednakowym prawdopodobieństwem pojawienia się wartości w dowolnym miejscu w zakresie. W takim przypadku średnie odchylenie może być bardziej odpowiednie.
TL; DR, jeśli masz dane, które wynikają z wielu przypadkowych procesów leżących u podstaw lub które po prostu wiesz, że są dystrybuowane normalnie, użyj funkcji odchylenia standardowego.
źródło