Po co różnicować różnicę zamiast przyjmować wartość bezwzględną w odchyleniu standardowym?

408

W definicji odchylenia standardowego, dlaczego musimy wyrównać różnicę od średniej, aby uzyskać średnią (E) i wziąć pierwiastek kwadratowy z powrotem na końcu? Czy nie możemy po prostu wziąć zamiast tego wartości bezwzględnej różnicy i uzyskać oczekiwaną (średnią) z nich, i czy nie pokazałoby to również zmienności danych? Liczba będzie różna od metody kwadratowej (metoda wartości bezwzględnej będzie mniejsza), ale nadal powinna pokazywać rozkład danych. Czy ktoś wie, dlaczego przyjmujemy to kwadratowe podejście jako standard?

Definicja odchylenia standardowego:

σ=E[(Xμ)2].

Czy nie możemy po prostu wziąć zamiast tego wartości bezwzględnej i nadal być dobrym pomiarem?

σ=E[|Xμ|]

c4il
źródło
25
W pewnym sensie proponowany pomiar jest szeroko stosowany w przypadku analizy błędów (jakości modelu) - wtedy nazywa się MAE, „średni błąd bezwzględny”.
8
Przyjmując odpowiedź, wydaje mi się ważne, że zwracamy uwagę na to, czy odpowiedź jest kolista. Rozkład normalny opiera się na tych pomiarach wariancji od kwadratowych warunków błędu, ale nie jest to samo w sobie uzasadnieniem dla użycia (XM) ^ 2 zamiast | XM |.
russellpierce
2
Czy uważasz, że termin standard oznacza, że ​​jest to dzisiaj standard? Czy to nie jest pytanie, dlaczego główny składnik jest „główny”, a nie wtórny?
robin girard
51
Każda dotychczasowa odpowiedź jest okrągła. Koncentrują się na łatwości obliczeń matematycznych (co jest miłe, ale w żadnym razie nie fundamentalne) lub na właściwościach rozkładu Gaussa (normalnego) i OLS. Około 1800 Gaussów zaczęło się od najmniejszych kwadratów i wariancji, a od tych, które wyprowadziły rozkład normalny - jest kolistość. Naprawdę fundamentalnym powodem, na który jeszcze nie powołano się w żadnej odpowiedzi, jest wyjątkowa rola, jaką odgrywa wariancja w centralnym twierdzeniu granicznym . Innym jest znaczenie w teorii decyzji minimalizacji straty kwadratowej.
whuber
2
Taleb twierdzi na Edge.org, że wycofuje odchylenie standardowe i stosuje średnie odchylenie bezwzględne.
Alex Holcombe,

Odpowiedzi:

188

Jeśli celem odchylenia standardowego jest podsumowanie rozproszenia symetrycznego zestawu danych (tj. Ogólnie, jak daleko jest każdy punkt odniesienia od średniej), potrzebujemy dobrej metody określania sposobu pomiaru tego rozproszenia.

Korzyści z kwadratu obejmują:

  • Kwadrat zawsze daje wartość dodatnią, więc suma nie będzie wynosić zero.
  • Kwadrat podkreśla większe różnice - cecha, która okazuje się zarówno dobra, jak i zła (pomyśl o odstających efektach).

Kwadrat ma jednak problem jako miara spreadu i polega na tym, że wszystkie jednostki są kwadratowe, podczas gdy możemy chcieć, aby spread był w tych samych jednostkach, co dane pierwotne (pomyśl o kwadratowych funtach, kwadratowych dolarach lub kwadratowych jabłkach) . Dlatego pierwiastek kwadratowy pozwala nam wrócić do oryginalnych jednostek.

Przypuszczam, że można powiedzieć, że różnica bezwzględna przypisuje jednakową wagę rozkładowi danych, a kwadratowanie podkreśla skrajności. Technicznie jednak, jak zauważyli inni, kwadratowanie znacznie ułatwia pracę z algebrą i oferuje właściwości, których nie robi metoda bezwzględna (na przykład wariancja jest równa oczekiwanej wartości kwadratu rozkładu minus kwadrat kwadratu średnia rozkładu)

Należy jednak zauważyć, że nie ma powodu, dla którego nie mógłbyś wziąć absolutnej różnicy, jeśli takie są twoje preferencje co do sposobu postrzegania „rozprzestrzeniania się” (tak, jak niektórzy ludzie postrzegają 5% jako magiczny prógwartości, kiedy w rzeczywistości zależy to od sytuacji). Rzeczywiście istnieje kilka konkurencyjnych metod pomiaru spreadu.p

Moim zdaniem, używam kwadratowych wartości, ponieważ lubię myśleć o tym, jak odnosi się to do Pitagorasa Twierdzenie Statystyki: … to pomaga mi również pamiętać, że podczas pracy z niezależnymi zmiennymi losowymi , dodają wariancje, odchylenia standardowe nie. Ale to tylko moje osobiste subiektywne preferencje, których używam głównie jako pomoc w zapamiętywaniu, możesz zignorować ten akapit.c=a2+b2

O wiele bardziej dogłębną analizę można przeczytać tutaj .

Tony Breyal
źródło
72
„Kwadrat zawsze daje wartość dodatnią, więc suma nie będzie wynosić zero”. podobnie jak wartości bezwzględne.
robin girard
32
@robin girard: Zgadza się, dlatego poprzedziłem ten punkt słowem „Korzyści z kwadratowania obejmują”. Nie sugerowałem, że cokolwiek o wartościach bezwzględnych w tym stwierdzeniu. Rozumiem twój punkt, rozważę usunięcie / przeformułowanie go, jeśli inni uznają to za niejasne.
Tony Breyal
15
Znaczną część obszaru solidnych statystyk stanowi próba radzenia sobie z nadmierną wrażliwością na wartości odstające, co jest konsekwencją wyboru wariancji jako miary rozprzestrzeniania danych (skali technicznej lub rozproszenia). en.wikipedia.org/wiki/Robust_statistics
Thylacoleo
5
Artykuł powiązany z odpowiedzią to bóg wysłany.
traggatmot
1
Myślę, że akapit o Pitagorasie jest trafny. Możesz myśleć o błędzie jak o wektorze w wymiarach, gdzie jest liczbą próbek. Rozmiar w każdym wymiarze jest różnicą od średniej dla tej próbki. Długość tego wektora (Pitagoras) jest pierwiastkiem sumowanych kwadratów, tj. odchyleniem standardowym. n [ ( x 1 - μ ) , ( x 2 - μ ) , ( x 3 - μ ) , . . . ]nn[(x1μ),(x2μ),(x3μ),...]
Arne Brasseur
138

Kwadratowa różnica ma lepsze właściwości matematyczne; jest stale różnicowalny (miło, gdy chcesz go zminimalizować), jest wystarczającą statystyką dla rozkładu Gaussa i jest (wersją) normy L2, która jest przydatna do udowodnienia zbieżności i tak dalej.

Średnie odchylenie bezwzględne (sugerowana przez ciebie notacja wartości bezwzględnej) jest również stosowane jako miara dyspersji, ale nie jest tak „dobrze wychowane” jak błąd kwadratu.

Bogaty
źródło
2
powiedział: „jest ciągle różnicowalny (miło, gdy chcesz go zminimalizować)” czy masz na myśli, że wartość bezwzględna jest trudna do optymalizacji?
robin girard
29
@robin: podczas gdy funkcja wartości bezwzględnej jest wszędzie ciągła, jej pierwszą pochodną nie jest (przy x = 0). Utrudnia to optymalizację analityczną.
Vince
12
Tak, ale znalezienie rzeczywistej liczby, którą chcesz, a nie tylko jej deskryptor, jest łatwiejsze przy kwadratowej utracie błędów. Rozważ przypadek 1-wymiarowy; można wyrazić minimalizator błędu kwadratu za pomocą średniej: O (n) operacji i formy zamkniętej. Możesz wyrazić wartość minimalizatora błędu bezwzględnego przez medianę, ale nie ma rozwiązania w formie zamkniętej, które powiedziałoby ci, co to jest mediana; wymaga sortowania, które jest czymś w rodzaju O (n log n). Rozwiązania z najmniejszymi kwadratami są zwykle prostą operacją typu plug-and-chug, rozwiązania o wartości bezwzględnej zwykle wymagają więcej pracy.
Bogaty
5
@Rich: Zarówno wariancja, jak i mediana można znaleźć w czasie liniowym i oczywiście nie szybciej. Mediana nie wymaga sortowania.
Neil G
84

Jednym ze sposobów myślenia o tym jest to, że odchylenie standardowe jest podobne do „odległości od średniej”.

Porównaj to z odległościami w przestrzeni euklidesowej - daje to prawdziwą odległość, gdzie to, co zasugerowałeś (co przy okazji jest absolutnym odchyleniem ), bardziej przypomina obliczanie odległości na Manhattanie .

Reed Copsey
źródło
17
Ładna analogia do przestrzeni euklidesowej!
c4il
2
Tyle że w jednym wymiarze normy i są tym samym, prawda? l 2l1l2
naught101
5
@ naught101: To nie jest jeden wymiar, ale wymiarów, gdzie jest liczbą próbek. Odchylenie standardowe i absolutne to (skalowane) odpowiednio odległości i , między dwoma punktami i gdzie jest oznaczać. n l 2 l 1 ( x 1 , x 2 , , x n ) ( μ , μ , , μ ) μnnl2l1(x1,x2,,xn)(μ,μ,,μ)μ
ShreevatsaR
1
Należy to zmodyfikować jako minimalną odległość od średniej. Zasadniczo jest to równanie Pitagorasa.
Jan
56

Powodem , że możemy obliczyć odchylenie standardowe zamiast bezwzględnej błędu jest to, że jesteśmy zakładając błąd się rozkład normalny . To część modelu.

Załóżmy, że mierzysz bardzo małe długości za pomocą linijki, wówczas odchylenie standardowe jest złym miernikiem błędu, ponieważ wiesz, że nigdy nie zmierzysz przypadkowo długości ujemnej. Lepszym miernikiem byłoby dopasowanie rozkładu gamma do twoich pomiarów:

log(E(x))E(log(x))

Podobnie jak odchylenie standardowe, jest to również nieujemne i różnicowalne, ale jest to lepsza statystyka błędów dla tego problemu.

Neil G.
źródło
3
Podoba mi się twoja odpowiedź. SD nie zawsze jest najlepszą statystyką.
RockScience
2
Świetny kontrprzykład na to, kiedy odchylenie standardowe nie jest najlepszym sposobem na myślenie o wielkościach wahań.
Hbar
Czy nie powinieneś mieć znaku przeciwnego na ilości, aby uzyskać dodatnią miarę - używając wypukłego- zamiast wklęsłego ? log xlogxlogx
AS
@AS Nie, to już zawsze jest pozytywne. Jest zerowy, gdy wszystkie próbki są równe, a poza tym jego wielkość mierzy zmienność. x
Neil G
Mylisz się. dla wklęsłych . gE(g(X))g(E(X))g
AS
25

Odpowiedź, która mnie najbardziej usatysfakcjonowała, to to, że wypada naturalnie z uogólnienia próbki do n-wymiarowej przestrzeni euklidesowej. Z pewnością można dyskutować, czy należy to zrobić, ale w każdym razie:

Załóżmy, że twoje pomiarów są osiami w . Następnie twoje dane określają punkt w tej przestrzeni. Teraz możesz zauważyć, że wszystkie dane są do siebie bardzo podobne, więc możesz reprezentować je za pomocą pojedynczego parametru lokalizacji który jest ograniczony do linii określonej przez . Rzutowanie punktu danych na tę linię daje , a odległość od rzutowanego punktu do rzeczywistego punktu danych wynosi.X I R n x I x μ X i = μ μ = ˉ x μ 1 nXiRnxixμXi=μμ^=x¯μ^1n1nσ^=xμ^1

Dzięki takiemu podejściu otrzymujesz geometryczną interpretację korelacji, .ρ^=cos(x~,y~)

sesqu
źródło
7
To jest poprawne i atrakcyjne. Ostatecznie wydaje się jednak, że przeformułowuje pytanie bez odpowiedzi, a mianowicie: dlaczego powinniśmy korzystać z odległości euklidesowej (L2)?
whuber
20
@sesqu Odchylenia standardowe nie stały się powszechne, dopóki Gauss w 1809 r. nie wyprowadził swojego tytułowego odchylenia przy użyciu błędu kwadratu, a nie błędu bezwzględnego, jako punktu wyjścia. Jednak to, co ich zepchnęło na szczyt (jak sądzę), to teoria regresji Galtona (przy której sugerujesz) i zdolność ANOVA do rozkładania sum kwadratów - co sprowadza się do ponownego sformułowania twierdzenia Pitagorasa, związku, z którego korzystają tylko Norma L2 W ten sposób SD stała się naturalną wszechstronną miarą rozprzestrzeniania się zalecaną przez Fishera w 1925 r. „Metody statystyczne dla pracowników badawczych” i oto jesteśmy, 85 lat później.
whuber
13
(+1) Kontynuując w duchu @ whubera, założę się, że Student opublikował w 1908 r. Artykuł zatytułowany „Prawdopodobny błąd średniej - Hej, chłopaki, sprawdźcie, że MAE w mianowniku!” wtedy statystyki miałyby teraz zupełnie inną twarz. Oczywiście nie opublikował takiego artykułu i oczywiście nie mógł, ponieważ MAE nie ma wszystkich dobrych właściwości, które ma S ^ 2. Jednym z nich (związanym ze Studentem) jest jego niezależność od średniej (w normalnym przypadku), co oczywiście jest powtórzeniem ortogonalności, która prowadzi nas z powrotem do L2 i produktu wewnętrznego.
3
Ta odpowiedź prowokowała do myślenia i myślę, że wolę ją przeglądać. W 1-D trudno jest zrozumieć, dlaczego poprawianie kwadratu jest postrzegane jako lepsze. Ale w wielu wymiarach (lub nawet tylko 2) łatwo można zauważyć, że odległość euklidesowa (kwadrat) jest lepsza niż odległość na Manhattanie (suma wartości bezwzględnej różnic).
thecity2
1
@whuber Czy możesz wyjaśnić, co oznacza „linia zdefiniowana przez Xᵢ = μ”? Czy to linia przechodząca przez początek i punkt (μ, μ, ..., μ)? Ponadto, gdzie mogę przeczytać więcej na ten temat?
Arch Stanton
18

Wyrównanie różnicy ze średniej ma kilka powodów.

  • Wariancja jest definiowana jako 2. moment odchylenia (RV tutaj jest ), a zatem kwadrat jako momenty są po prostu oczekiwaniami wyższych mocy zmiennej losowej.(xμ)

  • Posiadanie kwadratu w przeciwieństwie do funkcji wartości bezwzględnej daje ładną funkcję ciągłą i różniczkowalną (wartość bezwzględna nie jest różniczkowalna przy 0) - co czyni ją naturalnym wyborem, szczególnie w kontekście szacowania i analizy regresji.

  • Kwadratowa formuła naturalnie również wypada z parametrów rozkładu normalnego.

Kurczak kung Pao
źródło
17

Jeszcze inny powód (oprócz doskonałych powyżej) pochodzi od samego Fishera, który wykazał, że odchylenie standardowe jest bardziej „wydajne” niż odchylenie bezwzględne. Tutaj efektywny ma związek z tym, o ile statystyki będą się zmieniać w zależności od różnych próbek z populacji. Jeśli twoja populacja jest normalnie rozłożona, odchylenie standardowe różnych próbek z tej populacji będzie średnio dawało ci wartości, które są do siebie bardzo podobne, podczas gdy odchylenie bezwzględne da ci liczby, które się nieco rozłożą. Oczywiście jest to w idealnych okolicznościach, ale ten powód przekonał wiele osób (wraz z czystą matematyką), więc większość ludzi pracowała ze standardowymi odchyleniami.

Eric Suh
źródło
6
Twój argument zależy od normalnej dystrybucji danych. Jeśli założymy, że populacja ma rozkład „podwójny wykładniczy”, to odchylenie bezwzględne jest bardziej wydajne (w rzeczywistości jest to wystarczająca statystyka dla skali)
prawdopodobieństwo
7
Tak, jak już powiedziałem, „jeśli populacja jest normalnie podzielona”.
Eric Suh,
Poza założeniem normalnego rozkładu Fisher proof zakłada pomiary bez błędów. Przy małych błędach, takich jak 1%, sytuacja się odwraca, a średnie bezwzględne odchylenie jest bardziej wydajne niż odchylenie standardowe
juanrga
14

Aby ludzie wiedzieli, istnieje pytanie przepełnienia matematyki na ten sam temat.

Dlaczego-to-tak-fajne-do-kwadratowych-liczb-pod względem-znalezienia-odchylenia standardowego

Przesłanie „na wynos” jest takie, że zastosowanie pierwiastka kwadratowego wariancji prowadzi do łatwiejszej matematyki. Podobną odpowiedź udzielają Rich i Reed powyżej.

Robby McKilliam
źródło
3
„Łatwiejsza matematyka” nie jest niezbędnym wymogiem, gdy chcemy, aby nasze formuły i wartości lepiej odzwierciedlały dany zestaw danych. Komputery i tak wykonują całą ciężką pracę.
Dan W
Zdefiniowanie pi jako 3.14 ułatwia matematykę, ale to nie jest poprawne.
James
13

Warianty są addytywne: dla niezależnych zmiennych losowych , X1,,Xn

var(X1++Xn)=var(X1)++var(Xn).

Zauważ, co to umożliwia: Powiedzmy, że rzucam uczciwą monetą 900 razy. Jakie jest prawdopodobieństwo, że liczba głów, które dostanę, wynosi między 440 a 455 włącznie? Po prostu znajdź oczekiwaną liczbę głów ( ) i wariancję liczby głów ( ), a następnie znajdź prawdopodobieństwo z rozkładem normalnym (lub gaussowskim) z oczekiwaniem a odchylenie standardowe wynosi między a . Abraham de Moivre zrobił to z rzutami monet w XVIII wieku, pokazując tym samym po raz pierwszy, że krzywa w kształcie dzwonu jest coś warta.225 = 15 2 450 15 439,5 455,5450225=15245015439.5455.5

Michael Hardy
źródło
Czy średnie bezwzględne odchylenia nie są addytywne w taki sam sposób jak wariancje?
russellpierce
6
Nie, nie są.
Michael Hardy
10

Myślę, że kontrast między odchyleniami bezwzględnymi a odchyleniami do kwadratu staje się wyraźniejszy, gdy przejdziesz poza jedną zmienną i pomyślisz o regresji liniowej. Fajna dyskusja znajduje się na stronie http://en.wikipedia.org/wiki/Least_absolute_deviations , w szczególności sekcja „Kontrastowanie najmniejszych kwadratów z najmniejszymi odchyleniami absolutnymi”, która zawiera linki do niektórych ćwiczeń dla studentów za pomocą zgrabnego zestawu apletów na stronie http: // www .math.wpi.edu / Course_Materials / SAS / lablets / 7.3 / 73_choices.html .

Podsumowując, najmniejsze odchylenia bezwzględne są bardziej odporne na wartości odstające niż zwykłe najmniejsze kwadraty, ale mogą być niestabilne (niewielka zmiana nawet pojedynczego punktu odniesienia może dać dużą zmianę dopasowanej linii) i nie zawsze ma unikalne rozwiązanie - może istnieć cała gama dopasowanych linii. Również najmniejsze bezwzględne odchylenia wymagają iteracyjnych metod, podczas gdy zwykłe najmniejsze kwadraty mają proste rozwiązanie w formie zamkniętej, chociaż nie jest to już tak wielka sprawa, jak w czasach Gaussa i Legendre, oczywiście.

jeden przystanek
źródło
argument „unikalne rozwiązanie” jest dość słaby, to naprawdę oznacza, że ​​dane są dobrze obsługiwane przez więcej niż jedną wartość. Dodatkowo, penalizacja współczynników, takich jak L2, do pewnego stopnia rozwiąże problem wyjątkowości i problem stabilności.
probabilityislogic
10

Jest wiele powodów; prawdopodobnie najważniejsze jest to, że działa dobrze jako parametr rozkładu normalnego.


źródło
4
Zgadzam się. Odchylenie standardowe jest właściwym sposobem pomiaru dyspersji, jeśli założymy rozkład normalny. A wiele dystrybucji i rzeczywistych danych jest w przybliżeniu normalne.
Łukasz Lew
2
Nie sądzę, że powinieneś powiedzieć „parametr naturalny”: parametry naturalne rozkładu normalnego to średnia i średnia precyzja czasów. ( en.wikipedia.org/wiki/Natural_parameter )
Neil G
1
@NeilG Dobry punkt; Myślałem o „swobodnym” znaczeniu tutaj. Pomyślę o jakimś lepszym słowie.
8

Pod wieloma względami użycie odchylenia standardowego do podsumowania dyspersji przeskakuje do konkluzji. Można powiedzieć, że SD domyślnie zakłada rozkład symetryczny ze względu na równe traktowanie odległości poniżej średniej jako odległości powyżej średniej. SD jest zaskakująco trudna do interpretacji dla statystystów. Można argumentować, że średnia różnica Giniego ma szersze zastosowanie i jest znacznie bardziej zrozumiała. Nie wymaga od nikogo deklarowania wyboru miary tendencji centralnej, jak w przypadku średniej SD. Średnia różnica Giniego to średnia bezwzględna różnica między dowolnymi dwoma różnymi obserwacjami. Oprócz tego, że jest solidny i łatwy do interpretacji, okazuje się, że jest tak skuteczny jak SD, jeśli współczynnik rozkładu byłby Gaussa.

Frank Harrell
źródło
2
Aby dodać do sugestii @ Franka w sprawie Gini, jest tutaj miły artykuł: projecteuclid.org/download/pdf_1/euclid.ss/1028905831 Omawia różne miary rozproszenia, a także daje pouczającą perspektywę historyczną.
Thomas Speidel
1
Te pomysły też mi się podobają, ale istnieje mniej znana równoległa definicja wariancji (a zatem SD), która nie odwołuje się do środków jako parametrów lokalizacji. Wariancja stanowi połowę średniej kwadratowej we wszystkich różnicach między parami między wartościami, podobnie jak średnia różnica Gini opiera się na wartościach bezwzględnych wszystkich różnic parami.
Nick Cox
7

Oszacowanie standardowego odchylenia rozkładu wymaga wyboru odległości.
Można zastosować dowolną z następujących odległości:

dn((X)i=1,,I,μ)=(|Xμ|n)1/n

Zwykle używamy naturalnej odległości euklidesowej ( ), którą wszyscy używają w życiu codziennym. Proponowana odległość to ta, przy której . Obaj są dobrymi kandydatami, ale są inni.n=2n=1

Można też zdecydować się na użycie .n=3

Nie jestem pewien, czy spodoba ci się moja odpowiedź, moim argumentem w przeciwieństwie do innych nie jest wykazanie, że jest lepsze. Myślę, że jeśli chcesz oszacować standardowe odchylenie rozkładu, możesz absolutnie użyć innej odległości.n=2

RockScience
źródło
6

To zależy od tego, o czym mówisz, kiedy mówisz „rozprzestrzenianie się danych”. Dla mnie może to oznaczać dwie rzeczy:

  1. Szerokość rozkładu próbkowania
  2. Dokładność danego oszacowania

W przypadku punktu 1) nie ma szczególnego powodu, aby używać odchylenia standardowego jako miary rozproszenia, z wyjątkiem sytuacji, gdy występuje normalny rozkład próbkowania. Miara jest bardziej odpowiednią miarą w przypadku rozkładu próbkowania Laplace'a . Domyślam się, że użyto tutaj odchylenia standardowego z powodu intuicji przeniesionej z punktu 2). Prawdopodobnie także ze względu na sukces modelowania metodą najmniejszych kwadratów, dla którego odchylenie standardowe jest właściwą miarą. Prawdopodobnie również dlatego, że obliczenie jest ogólnie łatwiejsze niż obliczenie dla większości rozkładów.E(|Xμ|)E(X2)E(|X|)

Teraz, w punkcie 2) istnieje bardzo dobry powód, aby użyć wariancji / odchylenia standardowego jako miary rozproszenia, w jednym szczególnym, ale bardzo powszechnym przypadku. Widać to w przybliżeniu Laplace'a do tyłu. Z danymi i wcześniejszymi informacjami napisz tylną wartość parametru jako:DIθ

p(θDI)=exp(h(θ))exp(h(t))dth(θ)log[p(θI)p(DθI)]

Użyłem jako zmiennej zastępczej, aby wskazać, że mianownik nie zależy od . Jeśli tylny ma jedno dobrze zaokrąglone maksimum (tj. blisko „granicy”), możemy zwiększyć prawdopodobieństwo logarytmu o jego maksimum . Jeśli weźmiemy dwa pierwsze warunki ekspansji Taylora, otrzymujemy (używając liczby pierwszej do różnicowania):tθθmax

h(θ)h(θmax)+(θmaxθ)h(θmax)+12(θmaxθ)2h(θmax)

Ale mamy tutaj, że ponieważ jest „dobrze zaokrąglonym” maksimum, , więc mamy:θmaxh(θmax)=0

h(θ)h(θmax)+12(θmaxθ)2h(θmax)

Po podłączeniu tego przybliżenia otrzymamy:

p(θDI)exp(h(θmax)+12(θmaxθ)2h(θmax))exp(h(θmax)+12(θmaxt)2h(θmax))dt

=exp(12(θmaxθ)2h(θmax))exp(12(θmaxt)2h(θmax))dt

Który, ale dla notacji, jest rozkładem normalnym, ze średnią równą i wariancją równąE(θDI)θmax

V(θDI)[h(θmax)]1

( jest zawsze dodatnie, ponieważ mamy dobrze zaokrąglone maksimum). Oznacza to więc, że w „regularnych problemach” (których jest większość) wariancja jest podstawową wielkością, która określa dokładność oszacowań dla . Tak więc w przypadku szacunków opartych na dużej ilości danych odchylenie standardowe ma sens teoretycznie - mówi w zasadzie wszystko, co musisz wiedzieć. Zasadniczo ten sam argument ma zastosowanie (przy wymaganych tych samych warunkach) w przypadku wielowymiarowym z jest macierzą Hesji. Wpisy diagonalne również tutaj są zasadniczo wariancjami.h(θmax)θh(θ)jk=h(θ)θjθk

Częstotliwość stosujący metodę maksymalnego prawdopodobieństwa dojdzie do zasadniczo tego samego wniosku, ponieważ MLE ma tendencję do ważenia kombinacji danych, a dla dużych próbek stosuje się Twierdzenie o granicy centralnej i uzyskuje się ten sam wynik, jeśli weźmiemy ale z i : (zobacz, czy możesz zgadnąć, który preferuję paradygmat: P). Tak czy inaczej, w szacowaniu parametrów odchylenie standardowe jest ważną teoretyczną miarą rozproszenia.θ θ max p ( θ maxθ ) N ( θ , [ - h ( θ max ) ] - 1 )p(θI)=1θθmax

p(θmaxθ)N(θ,[h(θmax)]1)
prawdopodobieństwo prawdopodobieństwa
źródło
6

„Dlaczego wyrównać różnicę” zamiast „przyjmować wartość bezwzględną”? Aby odpowiedzieć bardzo dokładnie, istnieje literatura, która podaje powody, dla których została przyjęta, i argumenty uzasadniające, że większość z tych powodów nie istnieje. „Czy nie możemy po prostu przyjąć wartości bezwzględnej ...?”. Zdaję sobie sprawę z literatury, w której odpowiedź brzmi „tak”, że jest to robione i uważa się, że jest to korzystne.

Autor Gorard stwierdza, po pierwsze, że stosowanie kwadratów było wcześniej przyjęte ze względu na prostotę obliczeń, ale te pierwotne powody już nie istnieją. Po drugie, Gorard stwierdza, że ​​OLS został przyjęty, ponieważ Fisher stwierdził, że wyniki w próbkach analiz wykorzystujących OLS miały mniejsze odchylenia niż te, które wykorzystywały różnice bezwzględne (z grubsza stwierdzone). Wydaje się zatem, że OLS może przynieść korzyści w pewnych idealnych okolicznościach; jednak Gorard zauważa, że ​​istnieje pewien konsensus (i twierdzi, że Fisher się zgodził), że w rzeczywistych warunkach (niedokładny pomiar obserwacji, nierównomierny rozkład, badania populacji bez wnioskowania z próby) użycie kwadratów jest gorsze niż różnice bezwzględne.

Odpowiedź Gorarda na twoje pytanie „Czy nie możemy po prostu wziąć bezwzględnej wartości różnicy i uzyskać oczekiwaną (średnią) z nich?” jest tak. Kolejną zaletą jest to, że stosowanie różnic daje miary (miary błędów i zmienności) związane ze sposobem, w jaki doświadczamy tych pomysłów w życiu. Gorard mówi, że wyobraź sobie ludzi, którzy równo dzielą rachunek w restauracji, a niektórzy mogą intuicyjnie zauważyć, że ta metoda jest niesprawiedliwa. Nikt nie poprawi błędów; różnice są najważniejsze.

Wreszcie, używając różnic bezwzględnych, zauważa, traktuje każdą obserwację jednakowo, podczas gdy przez kwadraty kontrastu różnice dają obserwacje słabo większe niż obserwacje przewidywane, co jest jak wielokrotne uwzględnianie niektórych obserwacji w badaniu. Podsumowując, jego ogólnym założeniem jest to, że nie ma dziś wielu wygrywających powodów, aby używać kwadratów, a przeciwnie, stosowanie bezwzględnych różnic ma zalety.

Bibliografia:

Jen
źródło
1
Dzięki @Jen, przypomina mi to historię klawiatury QWERTY. Hej, dlaczego tyle czasu zajmuje napisanie QWERTY?
toto_tico
5

Ponieważ kwadraty pozwalają na użycie wielu innych operacji matematycznych lub funkcji łatwiej niż wartości bezwzględne.

Przykład: kwadraty można z łatwością integrować, różnicować, wykorzystywać w funkcjach trygonometrycznych, logarytmicznych i innych.

użytkownik 369
źródło
2
Zastanawiam się, czy jest tu samospełniająca się wiedza. Otrzymujemy
prawdopodobieństwo prawdopodobieństwa
5

Podczas dodawania zmiennych losowych dodawane są ich wariancje dla wszystkich rozkładów. Odchylenie (a zatem odchylenie standardowe) jest użyteczną miarą dla prawie wszystkich rozkładów i w żadnym wypadku nie ogranicza się do rozkładów gaussowskich (czyli „normalnych”). To sprzyja wykorzystywaniu go jako naszej miary błędu. Brak wyjątkowości stanowi poważny problem z bezwzględnymi różnicami, ponieważ często występuje nieskończona liczba „pasowań” o jednakowej mierze, a jednak wyraźnie „faworyt” jest najbardziej realistycznie preferowany. Również w dzisiejszych komputerach wydajność obliczeniowa ma znaczenie. Pracuję z dużymi zestawami danych, a czas procesora jest ważny. Jednak nie ma jednej absolutnej „najlepszej” miary reszt, jak wskazano w niektórych wcześniejszych odpowiedziach. Różne okoliczności czasem wymagają różnych środków.

Eric L. Michelsen
źródło
2
Nie jestem przekonany, że wariancje są bardzo przydatne w przypadku rozkładów asymetrycznych.
Frank Harrell,
Co z parą „pół-wariancji”, jedną w górę, drugą w dół?
kjetil b halvorsen
3

Oczywiście można opisać rozproszenie rozkładu w jakikolwiek znaczący sposób (odchylenie bezwzględne, kwantyle itp.).

Dobrym faktem jest to, że wariancja jest drugim centralnym momentem, a każdy rozkład jest jednoznacznie opisany przez swoje momenty, jeśli istnieją. Innym ciekawym faktem jest to, że wariancja jest znacznie łatwiejsza do obliczenia matematycznego niż jakakolwiek porównywalna metryka. Innym faktem jest to, że wariancja jest jednym z dwóch parametrów rozkładu normalnego dla zwykłej parametryzacji, a rozkład normalny ma tylko 2 niezerowe momenty centralne, które są tymi dwoma bardzo parametrami. Nawet w przypadku niestandardowych dystrybucji pomocne może być myślenie w normalnych ramach.

Moim zdaniem odchylenie standardowe istnieje jako takie, że w aplikacjach regularnie pojawia się pierwiastek kwadratowy wariancji (na przykład w celu standaryzacji losowej zmiennej), co wymagało nazwy.


źródło
1
Jeśli dobrze pamiętam, rozkład logarytmiczno-normalny nie jest jednoznacznie określony przez jego momenty.
prawdopodobieństwo prawdopodobieństwo
1
@probabilityislogic, rzeczywiście, to prawda, patrz en.wikipedia.org/wiki/Log-normal_distribution w sekcji „Funkcja charakterystyczna i funkcja generowania momentu”.
kjetil b halvorsen
1

Innym i być może bardziej intuicyjnym podejściem jest myślenie o regresji liniowej vs. regresji mediany.

Załóżmy, że naszym modelem jest . Następnie znajdujemy b poprzez zminimalizowanie oczekiwanej kwadratowej wartości resztkowej, .E(y|x)=xββ=argminbE(yxb)2

Jeśli zamiast tego naszym modelem jest Mediana , wówczas nasze oszacowania parametrów znajdujemy, minimalizując bezwzględne resztki,.(y|x)=xββ=argminbE|yxb|

Innymi słowy, czy zastosować błąd bezwzględny czy kwadratowy zależy od tego, czy chcesz modelować wartość oczekiwaną, czy wartość mediany.

Jeśli na przykład rozkład wykazuje zniekształconą heteroscedastyczność, wówczas istnieje duża różnica w tym, jak nachylenie oczekiwanej wartości zmienia się w stosunku do w jaki sposób nachylenie jest dla mediany wartości .yxy

Koenker i Hallock mają dobry przykład na temat regresji kwantylowej, gdzie regresja mediana jest szczególnym przypadkiem: http://master272.com/finance/QR/QRJEP.pdf .

Superpronker
źródło
0

Domyślam się, że: Większość populacji (rozkładów) gromadzi się wokół średniej. Im większa jest wartość od średniej, tym jest ona rzadsza. Aby odpowiednio wyrazić, jak „poza linię” jest wartość, należy wziąć pod uwagę zarówno jej odległość od średniej, jak i jej (zwykle mówiąc) rzadkość występowania. Kwadrat różnicy od średniej robi to w porównaniu z wartościami, które mają mniejsze odchylenia. Po uśrednieniu wszystkich odchyleń, można podjąć pierwiastek kwadratowy, który przywróci jednostki do ich pierwotnych wymiarów.

Samuel Berry
źródło
2
To nie wyjaśnia, dlaczego nie mogłeś po prostu wziąć absolutnej wartości różnicy. Wydaje się to koncepcyjnie prostsze dla większości statystyk 101 studentów i „uwzględniałoby zarówno odległość od średniej, jak i (zwykle mówiąc) rzadkość występowania”.
gung
Myślę, że bezwzględna wartość różnicy wyrażałaby jedynie różnicę od średniej i nie uwzględniałaby faktu, że duże różnice podwójnie zakłócają normalny rozkład.
Samuel Berry,
2
Dlaczego „podwójnie destrukcyjny” jest ważny, a nie, powiedzmy, „potrójnie destrukcyjny” lub „czterokrotnie destrukcyjny”? Wygląda na to, że ta odpowiedź po prostu zastępuje oryginalne pytanie równoważnym pytaniem.
whuber
0

Kwadrat potęguje większe odchylenia.

Jeśli twoja próbka ma wartości, które są na całej tabeli, to aby uwzględnić 68,2% w pierwszym odchyleniu standardowym, twoje odchylenie standardowe musi być nieco szersze. Jeśli twoje dane zwykle spadają wokół średniej, σ może być ciaśniejsze.

Niektórzy twierdzą, że ma to uprościć obliczenia. Zastosowanie dodatniego pierwiastka kwadratowego kwadratu rozwiązałoby to, aby argument nie był zmienny.

|x|=x2

Gdyby więc celem była prostota algebraiczna, wyglądałoby to tak:

σ=E[(xμ)2] co daje takie same wyniki jak .E[|xμ|]

Oczywiście podniesienie kwadratu powoduje również zwiększenie błędów zewnętrznych (doh!).

Preston Thayne
źródło
Podejrzewam, że na podstawie flagi, którą właśnie przetworzyłem, downvoter nie do końca zrozumiał, w jaki sposób ta odpowiedź odpowiada na pytanie. Wydaje mi się, że widzę związek (ale możesz jednak rozważyć wprowadzenie pewnych zmian, aby pomóc innym czytelnikom lepiej docenić twoje uwagi). Twój pierwszy akapit jednak wydaje mi się nieco kołowym argumentem: wartość 68,2% wynika z właściwości odchylenia standardowego, więc w jaki sposób wywołanie tej liczby pomaga uzasadnić użycie SD zamiast jakiejś innej normy odchyleń od średniej jako sposób kwantyfikacji rozkładu rozkładu? Lp
whuber
Pierwszy akapit był powodem mojej opinii.
Alexis
3
@Preston Thayne: Ponieważ odchylenie standardowe nie jest wartością oczekiwaną sqrt((x-mu)^2), twoja formuła wprowadza w błąd. Ponadto fakt, że kwadratowanie powoduje zwiększenie większych odchyleń, nie oznacza, że ​​jest to powód preferowania wariancji nad MAD . Jeśli już, to neutralna właściwość, ponieważ często chcemy czegoś bardziej solidnego, jak MAD . Wreszcie fakt, że wariancja jest bardziej możliwa do matematycznego obliczenia niż MAD, jest o wiele głębszym zagadnieniem matematycznym niż zostało to przedstawione w tym poście.
Steve S,
0

Po co różnicować różnicę zamiast przyjmować wartość bezwzględną w odchyleniu standardowym?

Różnicę x obliczamy na podstawie średniej, ponieważ odległość euklidesowa, proporcjonalna do pierwiastka kwadratowego stopni swobody (liczba x, w miary populacji), jest najlepszą miarą dyspersji.

Obliczanie odległości

Jaka jest odległość od punktu 0 do punktu 5?

  • 50=5 ,
  • |05|=5 i
  • 52=5

Ok, to jest trywialne, ponieważ jest to jeden wymiar.

Co powiesz na odległość dla punktu w punkcie 0, 0 do punktu 3, 4?

Jeśli możemy przejść tylko w 1 wymiarze na raz (jak w blokach miejskich), po prostu dodajemy liczby. (Jest to czasami znane jako odległość Manhattanu).

Ale co z przejściem w dwóch wymiarach jednocześnie? Następnie (zgodnie z twierdzeniem pitagorejskim, którego wszyscy nauczyliśmy się w szkole średniej), kwadratujemy odległość w każdym wymiarze, sumujemy kwadraty, a następnie pobieramy pierwiastek kwadratowy, aby znaleźć odległość od początku do punktu.

32+42=25=5

Co powiesz na odległość od punktu na 0, 0, 0 do punktu 1, 2, 2?

To tylko

12+22+22=9=3

ponieważ odległość dla pierwszych dwóch x stanowi podstawę do obliczenia całkowitej odległości z końcowym x.

x12+x222+x32=x12+x22+x32

Możemy nadal rozszerzać zasadę kwadratu odległości każdego wymiaru, co uogólnia do tego, co nazywamy odległością euklidesową, dla pomiarów ortogonalnych w przestrzeni hiper-wymiarowej, takich jak:

distance=i=1nxi2

a zatem suma kwadratów prostokątnych jest odległością do kwadratu:

distance2=i=1nxi2

Co czyni pomiar prostopadłym (lub prostopadłym) do drugiego? Warunkiem jest brak związku między dwoma pomiarami. Chcielibyśmy, aby te pomiary były niezależne i indywidualnie rozmieszczone ( iid ).

Zmienność

Teraz przywołaj wzór na wariancję populacji (z której otrzymamy standardowe odchylenie):

σ2=i=1n(xiμ)2n

Jeśli już wycentrowaliśmy dane na 0, odejmując średnią, mamy:

σ2=i=1n(xi)2n

Widzimy więc, że wariancja jest tylko kwadratową odległością podzieloną przez liczbę stopni swobody (liczbę wymiarów, w których zmienne mogą się zmieniać). Jest to również średni wkład do na pomiar. „Średnia kwadratowa wariancja” byłaby również odpowiednim terminem.distance2

Odchylenie standardowe

Następnie mamy odchylenie standardowe, które jest tylko pierwiastkiem kwadratowym wariancji:

σ=i=1n(xiμ)2n

Jest to równoważna odległość podzielona przez pierwiastek kwadratowy stopni swobody:

σ=i=1n(xi)2n

Średnie odchylenie bezwzględne

Mean Absolute Deviation (MAD), jest miarą dyspersji, która wykorzystuje odległość Manhattanu lub sumę wartości bezwzględnych różnic od średniej.

MAD=i=1n|xiμ|n

Ponownie, zakładając, że dane są wyśrodkowane (średnia odjęta), mamy odległość Manhattanu podzieloną przez liczbę pomiarów:

MAD=i=1n|xi|n

Dyskusja

  • Średnie bezwzględne odchylenie jest około 0,8 razy (w rzeczywistości2/π ) wielkości odchylenia standardowego dla normalnie rozproszonego zestawu danych.
  • Niezależnie od rozkładu średnie bezwzględne odchylenie jest mniejsze lub równe odchyleniu standardowemu. MAD rozumie rozproszenie zbioru danych o ekstremalnych wartościach w stosunku do odchylenia standardowego.
  • Średnie odchylenie bezwzględne jest bardziej odporne na wartości odstające (tj. Wartości odstające nie mają tak wielkiego wpływu na statystyki, jak na odchylenie standardowe.
  • Geometrycznie rzecz biorąc, jeśli pomiary nie są względem siebie ortogonalne (iid) - na przykład, jeśli byłyby dodatnio skorelowane, średnie odchylenie bezwzględne byłoby lepszą statystyką opisową niż odchylenie standardowe, które opiera się na odległości euklidesowej (chociaż jest to zwykle uważane za dobre ).

Ta tabela odzwierciedla powyższe informacje w bardziej zwięzły sposób:

MADσsizeσMADsize,N.8×σ1.25×MADoutliersrobustinfluencednot i.i.d.robustok

Komentarze:

Czy masz odniesienie do „średnie odchylenie bezwzględne jest około .8 razy większe niż odchylenie standardowe dla normalnie rozproszonego zestawu danych”? Symulacje, które prowadzę, pokazują, że jest to nieprawidłowe.

Oto 10 symulacji miliona próbek ze standardowego rozkładu normalnego:

>>> from numpy.random import standard_normal
>>> from numpy import mean, absolute
>>> for _ in range(10):
...     array = standard_normal(1_000_000)
...     print(numpy.std(array), mean(absolute(array - mean(array))))
... 
0.9999303226807994 0.7980634269273035
1.001126461808081 0.7985832977798981
0.9994247275533893 0.7980171649802613
0.9994142105335478 0.7972367136320848
1.0001188211817726 0.798021564315937
1.000442654481297 0.7981845236910842
1.0001537518728232 0.7975554993742403
1.0002838369191982 0.798143108250063
0.9999060114455384 0.797895284109523
1.0004871065680165 0.798726062813422

Wniosek

Wolimy kwadratowe różnice przy obliczaniu miary dyspersji, ponieważ możemy wykorzystać odległość euklidesową, co daje nam lepszą opisową statystykę dyspersji. Gdy istnieją bardziej względnie ekstremalne wartości, odległość euklidesowa uwzględnia to w statystyce, podczas gdy odległość Manhattanu nadaje każdemu pomiarowi jednakową wagę.

Aaron Hall
źródło