Średnie odchylenie bezwzględne vs. odchylenie standardowe

35

W książce „New Comprehensive Mathematics for O Level” Greera (1983) widzę uśrednione odchylenie obliczone w następujący sposób:

Zsumuj bezwzględne różnice między pojedynczymi wartościami a średnią. Więc zdobądź jego średnią. W rozdziale tym stosuje się określenie średnie odchylenie .

Ale ostatnio widziałem kilka referencji, które używają terminu odchylenie standardowe i to właśnie robią:

Oblicz kwadraty różnic między pojedynczymi wartościami a średnią. Następnie uzyskaj ich średnią i wreszcie źródło odpowiedzi.

Wypróbowałem obie metody na wspólnym zbiorze danych, a ich odpowiedzi są różne. Nie jestem statystykiem. Zdezorientowałem się, próbując uczyć dzieci dewiacji.

Krótko mówiąc, czy terminy odchylenie standardowe i odchylenie średnie są takie same, czy też mój stary podręcznik jest błędny?

itsols
źródło
2
Dwie ilości różnią się. Ważą dane inaczej. Odchylenie standardowe będzie większe i większy wpływ na niego będą miały większe wartości. Odchylenie standardowe (w szczególności wersja z mianownikiem n) można traktować jako odchylenie średniej kwadratowej. Odchylenia standardowe są częściej stosowane.
Glen_b
6
Bardzo ściśle powiązane : stats.stackexchange.com/questions/118/… .
whuber
Gary Kader ma świetny sposób, aby uczyć dzieci wyprowadzać średnie bezwzględne odchylenie .
Iain Samuel McLean Starszy
1
Nawiasem mówiąc, jednym z powodów, dla których ludzie wolą odchylenie standardowe, jest to, że dodają wariancje sum niepowiązanych zmiennych losowych (i pokrewne mają również prostą formułę). Nie dzieje się tak ze średnim odchyleniem.
Glen_b
2
@Alexis frazowanie było słabe. W przypadku niezależnych zmiennych losowych Var (X + Y) = Var (X) + Var (Y). Ten fakt jest używany wszędzie (prowadzi do znanych terminów podczas standaryzacji formuł obejmujących środki, jak na przykład w statystyce t dla jednej próby). Nie ma odpowiednio ogólnego faktu na średnie odchylenie. n
Glen_b

Odpowiedzi:

27

Oba odpowiadają, jak daleko twoje wartości są rozłożone wokół średniej z obserwacji.

Obserwacja, która wynosi 1 poniżej średniej, jest równie „daleka” od średniej, jak wartość, która jest 1 powyżej średniej. Dlatego należy zaniedbać znak odchylenia. Można to zrobić na dwa sposoby:

  • Oblicz wartość bezwzględną odchyleń i zsumuj je.

  • Wyrównuj odchylenia i zsumuj te kwadraty. Z powodu kwadratu większą wagę przywiązujesz do dużych odchyleń, a zatem suma tych kwadratów będzie inna niż suma średnich.

Po obliczeniu „sumy odchyleń bezwzględnych” lub „pierwiastka kwadratowego z sumy odchyleń do kwadratu” uśredniasz je, aby uzyskać odpowiednio „odchylenie średnie” i „odchylenie standardowe”.

Średnie odchylenie jest rzadko stosowane.

Kasper
źródło
Kiedy więc ktoś mówi po prostu „odchylenie”, czy oznacza to „odchylenie standardowe”?
itsols
Zgadzam się, że 1 powyżej lub poniżej oznaczałoby znaczącą „zmianę” lub „rozproszenie” z punktu widzenia zwykłego człowieka. Ale podniesienie go do kwadratu dałoby większe wartości i może to nie być moja „faktyczna zmiana”. Może się mylę, ale tak to widzę: /
itsols
Najczęściej używany jest termin odchylenie standardowe (pierwiastek kwadratowy wariancji). Obliczanie kwadratów jest zwykle wykonywane, ponieważ ułatwia wiele innych obliczeń.
Kasper
1
@itsols Technicznie należy zawsze określać, jaki rodzaj statystyki odchylenia oblicza się dla zestawu danych - samo słowo odchylenie powinno odnosić się do odchylenia pojedynczego punktu danych od średniej (w sposób, w jaki Kasper używa go w odpowiedzi ).
AmeliaBR
@itsols, +1 do Amelii. Rzeczywiście nikt nie mówi o statystyce zestawu danych jako o „odchyleniu”. Statystyka to „średnie odchylenie bezwzględne” lub „pierwiastek średniego odchylenia kwadratowego” lub podobne.
ttnphns
15

Obecnie wartości statystyczne są obliczane głównie przez programy komputerowe (Excel, ...), a nie przez ręczne kalkulatory. Dlatego uważam, że obliczanie „odchylenia średniego” nie jest bardziej kłopotliwe niż obliczanie „odchylenia standardowego”. Chociaż odchylenie standardowe może mieć „... właściwości matematyczne, które czynią go bardziej użytecznym w statystyce”, w rzeczywistości jest to zniekształcenie pojęcia wariancji od średniej, ponieważ nadaje ona dodatkowe znaczenie punktom danych dalekim od średniej. Może to zająć trochę czasu, ale ja, na przykład, mam nadzieję, że statystycy wracają do częstszego używania „średniego odchylenia” podczas omawiania rozkładu między punktami danych - dokładniej odzwierciedla to, jak faktycznie myślimy o rozkładzie.

andyl
źródło
Składasz nadzwyczajne twierdzenie o tym, jak ludzie (kwalifikowani statystycznie) „tak naprawdę myślą”. Jakie jest źródło twoich informacji na ten temat?
whuber
7
Źródłem są po prostu ludzie, których przesłuchałem na ten temat, a także ja. Na pytanie: jak wyobrażasz sobie różnicę w tym zestawie danych? odpowiedź zawsze wyrażana była w postaci liniowej odległości od średniej - odpowiedź nigdy nie obejmowała kwadratów ani pierwiastków kwadratowych. To prawda, że ​​jestem inżynierem, a nie „statystykiem”, ale prosiłbym każdego, aby podjął wyzwanie w tym temacie. Tak, kochamy matematykę odchylenia standardowego - to zabawne, ale czy tak naprawdę wyobrażasz sobie odchylenie od średniej?
andyl
2
To zależy od celu. Do eksploracji danych używam rzetelnych, opartych na rangach oszacowań dyspersji, takich jak mediana odchyleń od median, które w duchu są bliskie twojej propozycji. Ale w przypadku wielu innych prac, szczególnie przy ocenie (nawet mentalnej) potencjału istotności statystycznej, szacowaniu odpowiednich wielkości próby, ustalaniu wartości informacji i podejmowaniu decyzji wśród konkurencyjnych procedur statystycznych, myślenie w kategoriach odchyleń (a zatem odchyleń standardowych) jest istotny. Średnie odchylenia nie są substytutem, jak jasno pokazuje matematyka.
whuber
1
Sprawdź ten artykuł .
Pete,
@Pete Jak tam dotarłeś?
Vicrobot
9

Oba mierzą tę samą koncepcję, ale nie są równe.

1n|xja-x¯|1n(xja-x¯)2)

za+bza+b
|xja-x¯|=(xja-x¯)2)(xja-x¯)2)

n

1n(xja-x¯)2)

Powodem, dla którego preferowane jest odchylenie standardowe, jest to, że łatwiej jest matematycznie pracować później, gdy obliczenia stają się bardziej skomplikowane.

ltronneberg
źródło
3
Wartość bezwzględna sumy nie jest na ogół taka sama jak suma wartości bezwzględnych! Ani kwadrat, pierwiastek kwadratowy, ani funkcje absolutne nie są liniowe, dlatego suma po zastosowaniu funkcji różni się od zastosowania funkcji po pobraniu sumy.
AmeliaBR,
@AmeliaBR masz oczywiście całkowitą rację!
ltronneberg,
Reszta argumentu była jednak dobra, dlatego postanowiłem zredagować problematyczne stwierdzenie.
AmeliaBR
8

@itsols, dodam do ważnego pojęcia Kaspera, że The mean deviation is rarely used. Dlaczego odchylenie standardowe jest ogólnie uważane za lepszą miarę zmienności niż średnie odchylenie bezwzględne? Ponieważ średnia arytmetyczna jest umiejscowieniem minimalnej sumy kwadratów (a nie sumy absolutnych) odchyleń od niej.

Załóżmy, że chcesz ocenić stopień altruizmu. Wtedy prawdopodobnie nie zapytasz osoby o to, ile gotów jest dać w „ogólnej sytuacji” życia. Zamiast tego zdecydujesz się zapytać, ile jest gotów zrobić w sytuacji ograniczonej, w której ma minimalne możliwe zasoby na własne utrzymanie. Tj. Jaka jest ilość indywidualnego altruizmu w sytuacji, gdy ta ilość jest minimalna dla jednostki?

Podobnie jaki jest stopień zmienności tych danych? Intuicyjnie najlepszym wskaźnikiem pomiarowym jest ten, który jest minimalizowany (lub maksymalizowany) aż do granicy w tym kontekście. Kontekst jest „wokół średniej arytmetycznej”. Następnie św. Odchylenie jest najlepszym wyborem w tym sensie. Jeśli kontekst był „wokół mediany”, oznacza to | odchylenie | byłby najlepszym wyborem, ponieważ mediana jest miejscem minimalnej sumy absolutnych odchyleń od niej.

ttnphns
źródło
4
Twoje uzasadnienie dla SD oparte na Locus jest okrągłe. Uzasadniasz SD, kładąc szczególny nacisk na średnią arytmetyczną - wszystko to pokazuje, że mają związek, a nie, że SD jest wyjątkowy. Podobnie można zwrócić uwagę na medianę, która jest umiejscowieniem minimalnej sumy utraty absalute . Prawdziwym powodem częstszego używania SD jest to, że matematyka jest łatwiejsza do pracy ... ponadto jest łatwiejsza obliczeniowo (zarówno dlatego, że mediany wymagają „sortowania”, jak i ponieważ kwadraty są szybsze do obliczenia niż instrukcje rozgałęzień). Odchylenie filozoficzne absurdalne ma większą wartość.
samthebest
7

Warto dodać, że najbardziej prawdopodobnym powodem, dla którego twój 30-letni podręcznik użył bezwzględnego odchylenia średniego w przeciwieństwie do odchylenia standardowego, jest to, że łatwiej jest go obliczyć ręcznie (bez kwadratów / pierwiastków kwadratowych). Teraz, gdy kalkulatory są łatwo dostępne dla uczniów szkół średnich, nie ma powodu, aby nie prosić ich o obliczenie odchylenia standardowego.

Nadal istnieją sytuacje, w których odchylenia bezwzględne są stosowane zamiast odchyleń standardowych w złożonym dopasowaniu modelu. Odchylenia bezwzględne są mniej wrażliwe na skrajne wartości odstające (wartości dalekie od średniej / linii trendu) w porównaniu do odchyleń standardowych, ponieważ nie zwiększają tej odległości przed dodaniem jej do wartości z innych punktów danych. Ponieważ metody dopasowywania modeli mają na celu zmniejszenie całkowitego odchylenia od linii trendu (zgodnie z tym, które odchylenie jest metodą obliczeniową), metody wykorzystujące odchylenie standardowe mogą ostatecznie stworzyć linię trendu, która odbiega od większości punktów, aby być bliżej wartości odstającej . Zastosowanie bezwzględnych odchyleń zmniejsza to zniekształcenie, ale kosztem skomplikowania obliczeń linii trendu.

Jest tak, ponieważ, jak zauważyli inni, odchylenie standardowe ma właściwości matematyczne i zależności, które ogólnie sprawiają, że jest bardziej przydatny w statystyce. Ale „użytecznego” nigdy nie należy mylić z doskonałym.

AmeliaBR
źródło
1
tylko ciekawe, jakie są „właściwości matematyczne”, które sprawiają, że SD jest bardziej przydatna niż średnie odchylenie bezwzględne? nawiasem mówiąc, doskonała odpowiedź.
Weipeng L
@pongba Odchylenie standardowe jest nieodłączne dla wielu modeli statystycznych, które zakładają losową zmienność z wielu efektów, które mogą się wzajemnie znosić (inaczej normalnie rozłożone dane). Obejmuje to dokładność próbkowania (margines błędu) podczas korzystania z ankiety przeprowadzonej na dużej populacji. Jeśli twoje dane spełniają ten model, możesz oszacować prawdopodobieństwo uzyskania wartości z liczby SD ze średniej. Możesz obliczyć SD wielu niezależnych efektów na podstawie SD poszczególnych składników. Zobacz także: en.m.wikipedia.org/wiki/Standard_deviation
AmeliaBR
7

Oba mierzą rozproszenie danych, obliczając odległość danych do jego średniej.

  1. średni bezwzględny odchylenia stosuje normą L1 (nazywa się to też odległość Manhattan lub liniowa odległość )
  2. odchylenie standardowe stosuje normę L2 (zwany także odległość euklidesowa )

Różnica między tymi dwiema normami polega na tym, że odchylenie standardowe oblicza kwadrat różnicy, podczas gdy średnie odchylenie bezwzględne uwzględnia tylko różnicę bezwzględną. Stąd duże wartości odstające spowodują większe rozproszenie przy zastosowaniu odchylenia standardowego zamiast innej metody. Odległość euklidesowa jest rzeczywiście częściej stosowana. Głównym powodem jest odchylenie standardowemają dobre właściwości, gdy dane są normalnie dystrybuowane. Dlatego przy tym założeniu zaleca się jego użycie. Jednak ludzie często przyjmują to założenie dla danych, które w rzeczywistości nie są normalnie dystrybuowane, co stwarza problemy. Jeśli Twoje dane nie są normalnie rozpowszechniane, nadal możesz użyć odchylenia standardowego, ale powinieneś zachować ostrożność przy interpretacji wyników.

Na koniec powinieneś wiedzieć, że obie miary dyspersji są szczególnymi przypadkami odległości Minkowskiego , dla p = 1 ip = 2. Możesz zwiększyć p, aby uzyskać inne miary rozproszenia danych.

RockScience
źródło
Jest też post na math.stackexchange na ten temat: math.stackexchange.com/questions/384003/l1-norm-and-l2-norm
RockScience
6

Są to podobne miary, które próbują kwantyfikować to samo pojęcie. Zazwyczaj używasz św. odchylenie, ponieważ ma ładne właściwości, jeśli przyjmujesz pewne założenia dotyczące rozkładu podstawowego.

Z drugiej strony bezwzględna wartość odchylenia średniego powoduje pewne problemy z perspektywy matematycznej, ponieważ nie można jej rozróżnić i nie można jej łatwo przeanalizować. Trochę dyskusji tutaj .

iliasfl
źródło
1

Nie, mylisz się. Żartuję. Istnieje jednak wiele uzasadnionych powodów, dla których chcielibyśmy obliczyć średnie odchylenie zamiast formalnego standardu, i w ten sposób zgadzam się z poglądem moich inżynierów Braci. Oczywiście, jeśli obliczam statystyki, aby porównać je z istniejącą pracą, która wyraża zarówno jakościowe, jak i ilościowe wnioski, wolę trzymać się standardowego. Załóżmy na przykład, że staram się biegać szybkoalgorytmy wykrywania anomalii na danych binarnych generowanych maszynowo. Moim ostatecznym celem nie są porównania naukowe. Ale interesuje mnie fundamentalne wnioskowanie o „rozprzestrzenianiu się” określonego przepływu danych o jego średniej. Interesuje mnie również iteracyjne i tak wydajne, jak to możliwe. W cyfrowym sprzęcie elektronicznym cały czas bawimy się w nieczyste sztuczki - destylujemy multiplikacje i podziały odpowiednio na lewe i prawe przesunięcia, a dla „obliczania” wartości bezwzględnych po prostu upuszczamy bit znaku (i obliczamy uzupełnienie jednego lub dwóch, jeśli to konieczne , obie łatwe transformacje). Tak więc, moim wyborem jest obliczenie go w jak najbardziej przeciągający sposób i zastosować liniowe progi do moich obliczeń w celu szybkiego wykrycia anomalii w pożądanych oknach czasowych.

NotATroll
źródło
1
Odchylenie standardowe można obliczyć efektywnie i prosto za pomocą algorytmu online, tak jak może być każdy moment (w tym średnie odchylenie bezwzględne). Zatem wymóg szybkiego lub prostego obliczenia nie wykluczyłby tego (ani nie wykluczyłby żadnych opartych na momentach estymatorów spreadu).
whuber
0

Te dwa środki rzeczywiście się różnią. Pierwszy jest często określany jako średnie bezwzględne odchylenie (MAD), a drugi to odchylenie standardowe (STD). W aplikacjach osadzonych o bardzo ograniczonej mocy obliczeniowej i ograniczonej pamięci programu unikanie obliczania pierwiastka kwadratowego może być bardzo pożądane.

Z szybkiego testu zgrubnego wydaje się, że MAD = f * STD z f gdzieś pomiędzy 0,78 a 0,80 dla zestawu losowych próbek rozmieszczonych metodą gaussa.

Marco van Steen
źródło
0

Amar Sagoo ma bardzo dobry artykuł wyjaśniający to: [ http://blog.amarsagoo.info/2007/09/making-sense-of-standard-deviation.html]

Aby dodać własną próbę intuicyjnego zrozumienia:

Średnie odchylenie jest przyzwoitym sposobem zapytania o odległość hipotetycznego „średniego” punktu od średniej, ale tak naprawdę nie działa w przypadku pytania o odległość wszystkich punktów od siebie lub o to, jak „rozłożone” są dane.

Odchylenie standardowe pyta o to, jak daleko od siebie znajdują się wszystkie punkty, dlatego zawiera bardziej przydatne informacje niż tylko odchylenie średnie (dlatego właśnie odchylenie średnie jest zwykle używane tylko jako krok w kierunku zrozumienia odchylenia standardowego).

Dobrą analogią jest twierdzenie Pitagorasa. Twierdzenie Pitagorasa mówi nam o odległości między punktami w dwóch wymiarach, biorąc odległość poziomą i odległość pionową, podnosząc je do kwadratu, dodając kwadraty i biorąc pierwiastek kwadratowy z sumy.

Jeśli przyjrzysz się temu uważnie, wzór na odchylenie standardowe (populacja) jest zasadniczo taki sam jak twierdzenie Pitagorasa, ale ma znacznie więcej niż dwa wymiary (i używa odległości od każdego punktu do średniej jako odległości w każdym wymiarze). Jako taki daje najdokładniejszy obraz „odległości” między wszystkimi punktami w zbiorze danych.

Aby przesunąć tę analogię nieco dalej, średnie bezwzględne odchylenie byłoby jak wzięcie średniej odległości poziomych i pionowych, która jest krótsza niż odległość całkowita, podczas gdy suma bezwzględnego odchylenia byłaby dodaniem odległości poziomych i pionowych, które są dłuższe niż rzeczywista odległość.

Isaac Demme
źródło
Zakładam, że kiedy mówisz średnie odchylenie, masz na myśli absolutne odchylenie, o którym mówiła OP. Ważna jest terminologia, ponieważ średnie odchylenie wynosi zawsze 0. Jeśli chodzi o różnicę między średnim bezwzględnym odchyleniem a odchyleniem standardowym, oba dotyczą odchylenia WSZYSTKICH punktów od średniej. Jeden obejmuje sumę bezwzględnych odchyleń od średniej, a pierwiastek kwadratowy, jeśli suma kwadratowego odchylenia ..
Michael R. Chernick
0

Odchylenie standardowe reprezentuje dyspersję z powodu losowych procesów. W szczególności wiele fizycznych pomiarów, które prawdopodobnie wynikają z sumy wielu niezależnych procesów, ma rozkład normalny (krzywa dzwonowa).

Y=1σ2)πmi-(x-μ)2)2)σ2)

Yxμσ

Innymi słowy, odchylenie standardowe jest terminem wynikającym z sumowania niezależnych zmiennych losowych. Nie zgadzam się więc z niektórymi odpowiedziami podanymi tutaj - odchylenie standardowe nie jest tylko alternatywą dla odchylenia średniego, które „okazuje się być wygodniejsze dla późniejszych obliczeń”. Odchylenie standardowe jest właściwym sposobem modelowania dyspersji dla zjawisk o rozkładzie normalnym.

Jeśli spojrzysz na równanie, zobaczysz, że odchylenie standardowe w większym stopniu odważa większe odchylenia od średniej. Intuicyjnie możesz myśleć o średnim odchyleniu jako o pomiarze rzeczywistego średniego odchylenia od średniej, podczas gdy odchylenie standardowe stanowi rozkład w kształcie dzwonu, czyli „normalny” rozkład wokół średniej. Więc jeśli twoje dane są normalnie rozłożone, odchylenie standardowe mówi ci, że jeśli spróbujesz więcej wartości, ~ 68% z nich znajdzie się w obrębie jednego odchylenia standardowego wokół średniej.

Z drugiej strony, jeśli masz pojedynczą zmienną losową, rozkład może wyglądać jak prostokąt, z jednakowym prawdopodobieństwem pojawienia się wartości w dowolnym miejscu w zakresie. W takim przypadku średnie odchylenie może być bardziej odpowiednie.

TL; DR, jeśli masz dane, które wynikają z wielu przypadkowych procesów leżących u podstaw lub które po prostu wiesz, że są dystrybuowane normalnie, użyj funkcji odchylenia standardowego.

Aneil Mallavarapu
źródło