W definicji odchylenia standardowego, dlaczego musimy wyrównać różnicę od średniej, aby uzyskać średnią (E) i wziąć pierwiastek kwadratowy z powrotem na końcu? Czy nie możemy po prostu wziąć zamiast tego wartości bezwzględnej różnicy i uzyskać oczekiwaną (średnią) z nich, i czy nie pokazałoby to również zmienności danych? Liczba będzie różna od metody kwadratowej (metoda wartości bezwzględnej będzie mniejsza), ale nadal powinna pokazywać rozkład danych. Czy ktoś wie, dlaczego przyjmujemy to kwadratowe podejście jako standard?
Definicja odchylenia standardowego:
Czy nie możemy po prostu wziąć zamiast tego wartości bezwzględnej i nadal być dobrym pomiarem?
Odpowiedzi:
Jeśli celem odchylenia standardowego jest podsumowanie rozproszenia symetrycznego zestawu danych (tj. Ogólnie, jak daleko jest każdy punkt odniesienia od średniej), potrzebujemy dobrej metody określania sposobu pomiaru tego rozproszenia.
Korzyści z kwadratu obejmują:
Kwadrat ma jednak problem jako miara spreadu i polega na tym, że wszystkie jednostki są kwadratowe, podczas gdy możemy chcieć, aby spread był w tych samych jednostkach, co dane pierwotne (pomyśl o kwadratowych funtach, kwadratowych dolarach lub kwadratowych jabłkach) . Dlatego pierwiastek kwadratowy pozwala nam wrócić do oryginalnych jednostek.
Przypuszczam, że można powiedzieć, że różnica bezwzględna przypisuje jednakową wagę rozkładowi danych, a kwadratowanie podkreśla skrajności. Technicznie jednak, jak zauważyli inni, kwadratowanie znacznie ułatwia pracę z algebrą i oferuje właściwości, których nie robi metoda bezwzględna (na przykład wariancja jest równa oczekiwanej wartości kwadratu rozkładu minus kwadrat kwadratu średnia rozkładu)
Należy jednak zauważyć, że nie ma powodu, dla którego nie mógłbyś wziąć absolutnej różnicy, jeśli takie są twoje preferencje co do sposobu postrzegania „rozprzestrzeniania się” (tak, jak niektórzy ludzie postrzegają 5% jako magiczny prógwartości, kiedy w rzeczywistości zależy to od sytuacji). Rzeczywiście istnieje kilka konkurencyjnych metod pomiaru spreadu.p
Moim zdaniem, używam kwadratowych wartości, ponieważ lubię myśleć o tym, jak odnosi się to do Pitagorasa Twierdzenie Statystyki: … to pomaga mi również pamiętać, że podczas pracy z niezależnymi zmiennymi losowymi , dodają wariancje, odchylenia standardowe nie. Ale to tylko moje osobiste subiektywne preferencje, których używam głównie jako pomoc w zapamiętywaniu, możesz zignorować ten akapit.c=a2+b2−−−−−−√
O wiele bardziej dogłębną analizę można przeczytać tutaj .
źródło
Kwadratowa różnica ma lepsze właściwości matematyczne; jest stale różnicowalny (miło, gdy chcesz go zminimalizować), jest wystarczającą statystyką dla rozkładu Gaussa i jest (wersją) normy L2, która jest przydatna do udowodnienia zbieżności i tak dalej.
Średnie odchylenie bezwzględne (sugerowana przez ciebie notacja wartości bezwzględnej) jest również stosowane jako miara dyspersji, ale nie jest tak „dobrze wychowane” jak błąd kwadratu.
źródło
Jednym ze sposobów myślenia o tym jest to, że odchylenie standardowe jest podobne do „odległości od średniej”.
Porównaj to z odległościami w przestrzeni euklidesowej - daje to prawdziwą odległość, gdzie to, co zasugerowałeś (co przy okazji jest absolutnym odchyleniem ), bardziej przypomina obliczanie odległości na Manhattanie .
źródło
Powodem , że możemy obliczyć odchylenie standardowe zamiast bezwzględnej błędu jest to, że jesteśmy zakładając błąd się rozkład normalny . To część modelu.
Załóżmy, że mierzysz bardzo małe długości za pomocą linijki, wówczas odchylenie standardowe jest złym miernikiem błędu, ponieważ wiesz, że nigdy nie zmierzysz przypadkowo długości ujemnej. Lepszym miernikiem byłoby dopasowanie rozkładu gamma do twoich pomiarów:
Podobnie jak odchylenie standardowe, jest to również nieujemne i różnicowalne, ale jest to lepsza statystyka błędów dla tego problemu.
źródło
Odpowiedź, która mnie najbardziej usatysfakcjonowała, to to, że wypada naturalnie z uogólnienia próbki do n-wymiarowej przestrzeni euklidesowej. Z pewnością można dyskutować, czy należy to zrobić, ale w każdym razie:
Załóżmy, że twoje pomiarów są osiami w . Następnie twoje dane określają punkt w tej przestrzeni. Teraz możesz zauważyć, że wszystkie dane są do siebie bardzo podobne, więc możesz reprezentować je za pomocą pojedynczego parametru lokalizacji który jest ograniczony do linii określonej przez . Rzutowanie punktu danych na tę linię daje , a odległość od rzutowanego punktu do rzeczywistego punktu danych wynosi.X I R n x I x μ X i = μ μ = ˉ x μ 1 √n Xi Rn xi x μ Xi=μ μ^=x¯ μ^1 n−1n−−−√σ^=∥x−μ^1∥
Dzięki takiemu podejściu otrzymujesz geometryczną interpretację korelacji, .ρ^=cos∠(x~⃗ ,y~⃗ )
źródło
Wyrównanie różnicy ze średniej ma kilka powodów.
Wariancja jest definiowana jako 2. moment odchylenia (RV tutaj jest ), a zatem kwadrat jako momenty są po prostu oczekiwaniami wyższych mocy zmiennej losowej.(x−μ)
Posiadanie kwadratu w przeciwieństwie do funkcji wartości bezwzględnej daje ładną funkcję ciągłą i różniczkowalną (wartość bezwzględna nie jest różniczkowalna przy 0) - co czyni ją naturalnym wyborem, szczególnie w kontekście szacowania i analizy regresji.
Kwadratowa formuła naturalnie również wypada z parametrów rozkładu normalnego.
źródło
Jeszcze inny powód (oprócz doskonałych powyżej) pochodzi od samego Fishera, który wykazał, że odchylenie standardowe jest bardziej „wydajne” niż odchylenie bezwzględne. Tutaj efektywny ma związek z tym, o ile statystyki będą się zmieniać w zależności od różnych próbek z populacji. Jeśli twoja populacja jest normalnie rozłożona, odchylenie standardowe różnych próbek z tej populacji będzie średnio dawało ci wartości, które są do siebie bardzo podobne, podczas gdy odchylenie bezwzględne da ci liczby, które się nieco rozłożą. Oczywiście jest to w idealnych okolicznościach, ale ten powód przekonał wiele osób (wraz z czystą matematyką), więc większość ludzi pracowała ze standardowymi odchyleniami.
źródło
Aby ludzie wiedzieli, istnieje pytanie przepełnienia matematyki na ten sam temat.
Dlaczego-to-tak-fajne-do-kwadratowych-liczb-pod względem-znalezienia-odchylenia standardowego
Przesłanie „na wynos” jest takie, że zastosowanie pierwiastka kwadratowego wariancji prowadzi do łatwiejszej matematyki. Podobną odpowiedź udzielają Rich i Reed powyżej.
źródło
Zauważ, co to umożliwia: Powiedzmy, że rzucam uczciwą monetą 900 razy. Jakie jest prawdopodobieństwo, że liczba głów, które dostanę, wynosi między 440 a 455 włącznie? Po prostu znajdź oczekiwaną liczbę głów ( ) i wariancję liczby głów ( ), a następnie znajdź prawdopodobieństwo z rozkładem normalnym (lub gaussowskim) z oczekiwaniem a odchylenie standardowe wynosi między a . Abraham de Moivre zrobił to z rzutami monet w XVIII wieku, pokazując tym samym po raz pierwszy, że krzywa w kształcie dzwonu jest coś warta.225 = 15 2 450 15 439,5 455,5450 225=152 450 15 439.5 455.5
źródło
Myślę, że kontrast między odchyleniami bezwzględnymi a odchyleniami do kwadratu staje się wyraźniejszy, gdy przejdziesz poza jedną zmienną i pomyślisz o regresji liniowej. Fajna dyskusja znajduje się na stronie http://en.wikipedia.org/wiki/Least_absolute_deviations , w szczególności sekcja „Kontrastowanie najmniejszych kwadratów z najmniejszymi odchyleniami absolutnymi”, która zawiera linki do niektórych ćwiczeń dla studentów za pomocą zgrabnego zestawu apletów na stronie http: // www .math.wpi.edu / Course_Materials / SAS / lablets / 7.3 / 73_choices.html .
Podsumowując, najmniejsze odchylenia bezwzględne są bardziej odporne na wartości odstające niż zwykłe najmniejsze kwadraty, ale mogą być niestabilne (niewielka zmiana nawet pojedynczego punktu odniesienia może dać dużą zmianę dopasowanej linii) i nie zawsze ma unikalne rozwiązanie - może istnieć cała gama dopasowanych linii. Również najmniejsze bezwzględne odchylenia wymagają iteracyjnych metod, podczas gdy zwykłe najmniejsze kwadraty mają proste rozwiązanie w formie zamkniętej, chociaż nie jest to już tak wielka sprawa, jak w czasach Gaussa i Legendre, oczywiście.
źródło
Jest wiele powodów; prawdopodobnie najważniejsze jest to, że działa dobrze jako parametr rozkładu normalnego.
źródło
Pod wieloma względami użycie odchylenia standardowego do podsumowania dyspersji przeskakuje do konkluzji. Można powiedzieć, że SD domyślnie zakłada rozkład symetryczny ze względu na równe traktowanie odległości poniżej średniej jako odległości powyżej średniej. SD jest zaskakująco trudna do interpretacji dla statystystów. Można argumentować, że średnia różnica Giniego ma szersze zastosowanie i jest znacznie bardziej zrozumiała. Nie wymaga od nikogo deklarowania wyboru miary tendencji centralnej, jak w przypadku średniej SD. Średnia różnica Giniego to średnia bezwzględna różnica między dowolnymi dwoma różnymi obserwacjami. Oprócz tego, że jest solidny i łatwy do interpretacji, okazuje się, że jest tak skuteczny jak SD, jeśli współczynnik rozkładu byłby Gaussa.
źródło
Oszacowanie standardowego odchylenia rozkładu wymaga wyboru odległości.
Można zastosować dowolną z następujących odległości:
Zwykle używamy naturalnej odległości euklidesowej ( ), którą wszyscy używają w życiu codziennym. Proponowana odległość to ta, przy której . Obaj są dobrymi kandydatami, ale są inni.n=2 n=1
Można też zdecydować się na użycie .n=3
Nie jestem pewien, czy spodoba ci się moja odpowiedź, moim argumentem w przeciwieństwie do innych nie jest wykazanie, że jest lepsze. Myślę, że jeśli chcesz oszacować standardowe odchylenie rozkładu, możesz absolutnie użyć innej odległości.n=2
źródło
To zależy od tego, o czym mówisz, kiedy mówisz „rozprzestrzenianie się danych”. Dla mnie może to oznaczać dwie rzeczy:
W przypadku punktu 1) nie ma szczególnego powodu, aby używać odchylenia standardowego jako miary rozproszenia, z wyjątkiem sytuacji, gdy występuje normalny rozkład próbkowania. Miara jest bardziej odpowiednią miarą w przypadku rozkładu próbkowania Laplace'a . Domyślam się, że użyto tutaj odchylenia standardowego z powodu intuicji przeniesionej z punktu 2). Prawdopodobnie także ze względu na sukces modelowania metodą najmniejszych kwadratów, dla którego odchylenie standardowe jest właściwą miarą. Prawdopodobnie również dlatego, że obliczenie jest ogólnie łatwiejsze niż obliczenie dla większości rozkładów.E(|X−μ|) E(X2) E(|X|)
Teraz, w punkcie 2) istnieje bardzo dobry powód, aby użyć wariancji / odchylenia standardowego jako miary rozproszenia, w jednym szczególnym, ale bardzo powszechnym przypadku. Widać to w przybliżeniu Laplace'a do tyłu. Z danymi i wcześniejszymi informacjami napisz tylną wartość parametru jako:D I θ
Użyłem jako zmiennej zastępczej, aby wskazać, że mianownik nie zależy od . Jeśli tylny ma jedno dobrze zaokrąglone maksimum (tj. blisko „granicy”), możemy zwiększyć prawdopodobieństwo logarytmu o jego maksimum . Jeśli weźmiemy dwa pierwsze warunki ekspansji Taylora, otrzymujemy (używając liczby pierwszej do różnicowania):t θ θmax
Ale mamy tutaj, że ponieważ jest „dobrze zaokrąglonym” maksimum, , więc mamy:θmax h′(θmax)=0
Po podłączeniu tego przybliżenia otrzymamy:
Który, ale dla notacji, jest rozkładem normalnym, ze średnią równą i wariancją równąE(θ∣DI)≈θmax
( jest zawsze dodatnie, ponieważ mamy dobrze zaokrąglone maksimum). Oznacza to więc, że w „regularnych problemach” (których jest większość) wariancja jest podstawową wielkością, która określa dokładność oszacowań dla . Tak więc w przypadku szacunków opartych na dużej ilości danych odchylenie standardowe ma sens teoretycznie - mówi w zasadzie wszystko, co musisz wiedzieć. Zasadniczo ten sam argument ma zastosowanie (przy wymaganych tych samych warunkach) w przypadku wielowymiarowym z jest macierzą Hesji. Wpisy diagonalne również tutaj są zasadniczo wariancjami.−h′′(θmax) θ h′′(θ)jk=∂h(θ)∂θj∂θk
Częstotliwość stosujący metodę maksymalnego prawdopodobieństwa dojdzie do zasadniczo tego samego wniosku, ponieważ MLE ma tendencję do ważenia kombinacji danych, a dla dużych próbek stosuje się Twierdzenie o granicy centralnej i uzyskuje się ten sam wynik, jeśli weźmiemy ale z i : (zobacz, czy możesz zgadnąć, który preferuję paradygmat: P). Tak czy inaczej, w szacowaniu parametrów odchylenie standardowe jest ważną teoretyczną miarą rozproszenia.θ θ max p ( θ max ∣ θ ) ≈ N ( θ , [ - h ″ ( θ max ) ] - 1 )p(θ∣I)=1 θ θmax
źródło
„Dlaczego wyrównać różnicę” zamiast „przyjmować wartość bezwzględną”? Aby odpowiedzieć bardzo dokładnie, istnieje literatura, która podaje powody, dla których została przyjęta, i argumenty uzasadniające, że większość z tych powodów nie istnieje. „Czy nie możemy po prostu przyjąć wartości bezwzględnej ...?”. Zdaję sobie sprawę z literatury, w której odpowiedź brzmi „tak”, że jest to robione i uważa się, że jest to korzystne.
Autor Gorard stwierdza, po pierwsze, że stosowanie kwadratów było wcześniej przyjęte ze względu na prostotę obliczeń, ale te pierwotne powody już nie istnieją. Po drugie, Gorard stwierdza, że OLS został przyjęty, ponieważ Fisher stwierdził, że wyniki w próbkach analiz wykorzystujących OLS miały mniejsze odchylenia niż te, które wykorzystywały różnice bezwzględne (z grubsza stwierdzone). Wydaje się zatem, że OLS może przynieść korzyści w pewnych idealnych okolicznościach; jednak Gorard zauważa, że istnieje pewien konsensus (i twierdzi, że Fisher się zgodził), że w rzeczywistych warunkach (niedokładny pomiar obserwacji, nierównomierny rozkład, badania populacji bez wnioskowania z próby) użycie kwadratów jest gorsze niż różnice bezwzględne.
Odpowiedź Gorarda na twoje pytanie „Czy nie możemy po prostu wziąć bezwzględnej wartości różnicy i uzyskać oczekiwaną (średnią) z nich?” jest tak. Kolejną zaletą jest to, że stosowanie różnic daje miary (miary błędów i zmienności) związane ze sposobem, w jaki doświadczamy tych pomysłów w życiu. Gorard mówi, że wyobraź sobie ludzi, którzy równo dzielą rachunek w restauracji, a niektórzy mogą intuicyjnie zauważyć, że ta metoda jest niesprawiedliwa. Nikt nie poprawi błędów; różnice są najważniejsze.
Wreszcie, używając różnic bezwzględnych, zauważa, traktuje każdą obserwację jednakowo, podczas gdy przez kwadraty kontrastu różnice dają obserwacje słabo większe niż obserwacje przewidywane, co jest jak wielokrotne uwzględnianie niektórych obserwacji w badaniu. Podsumowując, jego ogólnym założeniem jest to, że nie ma dziś wielu wygrywających powodów, aby używać kwadratów, a przeciwnie, stosowanie bezwzględnych różnic ma zalety.
Bibliografia:
źródło
Ponieważ kwadraty pozwalają na użycie wielu innych operacji matematycznych lub funkcji łatwiej niż wartości bezwzględne.
Przykład: kwadraty można z łatwością integrować, różnicować, wykorzystywać w funkcjach trygonometrycznych, logarytmicznych i innych.
źródło
Podczas dodawania zmiennych losowych dodawane są ich wariancje dla wszystkich rozkładów. Odchylenie (a zatem odchylenie standardowe) jest użyteczną miarą dla prawie wszystkich rozkładów i w żadnym wypadku nie ogranicza się do rozkładów gaussowskich (czyli „normalnych”). To sprzyja wykorzystywaniu go jako naszej miary błędu. Brak wyjątkowości stanowi poważny problem z bezwzględnymi różnicami, ponieważ często występuje nieskończona liczba „pasowań” o jednakowej mierze, a jednak wyraźnie „faworyt” jest najbardziej realistycznie preferowany. Również w dzisiejszych komputerach wydajność obliczeniowa ma znaczenie. Pracuję z dużymi zestawami danych, a czas procesora jest ważny. Jednak nie ma jednej absolutnej „najlepszej” miary reszt, jak wskazano w niektórych wcześniejszych odpowiedziach. Różne okoliczności czasem wymagają różnych środków.
źródło
Oczywiście można opisać rozproszenie rozkładu w jakikolwiek znaczący sposób (odchylenie bezwzględne, kwantyle itp.).
Dobrym faktem jest to, że wariancja jest drugim centralnym momentem, a każdy rozkład jest jednoznacznie opisany przez swoje momenty, jeśli istnieją. Innym ciekawym faktem jest to, że wariancja jest znacznie łatwiejsza do obliczenia matematycznego niż jakakolwiek porównywalna metryka. Innym faktem jest to, że wariancja jest jednym z dwóch parametrów rozkładu normalnego dla zwykłej parametryzacji, a rozkład normalny ma tylko 2 niezerowe momenty centralne, które są tymi dwoma bardzo parametrami. Nawet w przypadku niestandardowych dystrybucji pomocne może być myślenie w normalnych ramach.
Moim zdaniem odchylenie standardowe istnieje jako takie, że w aplikacjach regularnie pojawia się pierwiastek kwadratowy wariancji (na przykład w celu standaryzacji losowej zmiennej), co wymagało nazwy.
źródło
Innym i być może bardziej intuicyjnym podejściem jest myślenie o regresji liniowej vs. regresji mediany.
Załóżmy, że naszym modelem jest . Następnie znajdujemy b poprzez zminimalizowanie oczekiwanej kwadratowej wartości resztkowej, .E(y|x)=xβ β=argminbE(y−xb)2
Jeśli zamiast tego naszym modelem jest Mediana , wówczas nasze oszacowania parametrów znajdujemy, minimalizując bezwzględne resztki,.(y|x)=xβ β=argminbE|y−xb|
Innymi słowy, czy zastosować błąd bezwzględny czy kwadratowy zależy od tego, czy chcesz modelować wartość oczekiwaną, czy wartość mediany.
Jeśli na przykład rozkład wykazuje zniekształconą heteroscedastyczność, wówczas istnieje duża różnica w tym, jak nachylenie oczekiwanej wartości zmienia się w stosunku do w jaki sposób nachylenie jest dla mediany wartości .y x y
Koenker i Hallock mają dobry przykład na temat regresji kwantylowej, gdzie regresja mediana jest szczególnym przypadkiem: http://master272.com/finance/QR/QRJEP.pdf .
źródło
Domyślam się, że: Większość populacji (rozkładów) gromadzi się wokół średniej. Im większa jest wartość od średniej, tym jest ona rzadsza. Aby odpowiednio wyrazić, jak „poza linię” jest wartość, należy wziąć pod uwagę zarówno jej odległość od średniej, jak i jej (zwykle mówiąc) rzadkość występowania. Kwadrat różnicy od średniej robi to w porównaniu z wartościami, które mają mniejsze odchylenia. Po uśrednieniu wszystkich odchyleń, można podjąć pierwiastek kwadratowy, który przywróci jednostki do ich pierwotnych wymiarów.
źródło
Kwadrat potęguje większe odchylenia.
Jeśli twoja próbka ma wartości, które są na całej tabeli, to aby uwzględnić 68,2% w pierwszym odchyleniu standardowym, twoje odchylenie standardowe musi być nieco szersze. Jeśli twoje dane zwykle spadają wokół średniej, σ może być ciaśniejsze.
Niektórzy twierdzą, że ma to uprościć obliczenia. Zastosowanie dodatniego pierwiastka kwadratowego kwadratu rozwiązałoby to, aby argument nie był zmienny.
Gdyby więc celem była prostota algebraiczna, wyglądałoby to tak:
Oczywiście podniesienie kwadratu powoduje również zwiększenie błędów zewnętrznych (doh!).
źródło
sqrt((x-mu)^2)
, twoja formuła wprowadza w błąd. Ponadto fakt, że kwadratowanie powoduje zwiększenie większych odchyleń, nie oznacza, że jest to powód preferowania wariancji nad MAD . Jeśli już, to neutralna właściwość, ponieważ często chcemy czegoś bardziej solidnego, jak MAD . Wreszcie fakt, że wariancja jest bardziej możliwa do matematycznego obliczenia niż MAD, jest o wiele głębszym zagadnieniem matematycznym niż zostało to przedstawione w tym poście.Różnicę x obliczamy na podstawie średniej, ponieważ odległość euklidesowa, proporcjonalna do pierwiastka kwadratowego stopni swobody (liczba x, w miary populacji), jest najlepszą miarą dyspersji.
Obliczanie odległości
Jaka jest odległość od punktu 0 do punktu 5?
Ok, to jest trywialne, ponieważ jest to jeden wymiar.
Co powiesz na odległość dla punktu w punkcie 0, 0 do punktu 3, 4?
Jeśli możemy przejść tylko w 1 wymiarze na raz (jak w blokach miejskich), po prostu dodajemy liczby. (Jest to czasami znane jako odległość Manhattanu).
Ale co z przejściem w dwóch wymiarach jednocześnie? Następnie (zgodnie z twierdzeniem pitagorejskim, którego wszyscy nauczyliśmy się w szkole średniej), kwadratujemy odległość w każdym wymiarze, sumujemy kwadraty, a następnie pobieramy pierwiastek kwadratowy, aby znaleźć odległość od początku do punktu.
Co powiesz na odległość od punktu na 0, 0, 0 do punktu 1, 2, 2?
To tylko
ponieważ odległość dla pierwszych dwóch x stanowi podstawę do obliczenia całkowitej odległości z końcowym x.
Możemy nadal rozszerzać zasadę kwadratu odległości każdego wymiaru, co uogólnia do tego, co nazywamy odległością euklidesową, dla pomiarów ortogonalnych w przestrzeni hiper-wymiarowej, takich jak:
a zatem suma kwadratów prostokątnych jest odległością do kwadratu:
Co czyni pomiar prostopadłym (lub prostopadłym) do drugiego? Warunkiem jest brak związku między dwoma pomiarami. Chcielibyśmy, aby te pomiary były niezależne i indywidualnie rozmieszczone ( iid ).
Zmienność
Teraz przywołaj wzór na wariancję populacji (z której otrzymamy standardowe odchylenie):
Jeśli już wycentrowaliśmy dane na 0, odejmując średnią, mamy:
Widzimy więc, że wariancja jest tylko kwadratową odległością podzieloną przez liczbę stopni swobody (liczbę wymiarów, w których zmienne mogą się zmieniać). Jest to również średni wkład do na pomiar. „Średnia kwadratowa wariancja” byłaby również odpowiednim terminem.distance2
Odchylenie standardowe
Następnie mamy odchylenie standardowe, które jest tylko pierwiastkiem kwadratowym wariancji:
Jest to równoważna odległość podzielona przez pierwiastek kwadratowy stopni swobody:
Średnie odchylenie bezwzględne
Mean Absolute Deviation (MAD), jest miarą dyspersji, która wykorzystuje odległość Manhattanu lub sumę wartości bezwzględnych różnic od średniej.
Ponownie, zakładając, że dane są wyśrodkowane (średnia odjęta), mamy odległość Manhattanu podzieloną przez liczbę pomiarów:
Dyskusja
Ta tabela odzwierciedla powyższe informacje w bardziej zwięzły sposób:
Komentarze:
Oto 10 symulacji miliona próbek ze standardowego rozkładu normalnego:
Wniosek
Wolimy kwadratowe różnice przy obliczaniu miary dyspersji, ponieważ możemy wykorzystać odległość euklidesową, co daje nam lepszą opisową statystykę dyspersji. Gdy istnieją bardziej względnie ekstremalne wartości, odległość euklidesowa uwzględnia to w statystyce, podczas gdy odległość Manhattanu nadaje każdemu pomiarowi jednakową wagę.
źródło