Dlaczego odchylenie standardowe jest definiowane jako sqrt wariancji, a nie jako sqrt sumy kwadratów nad N?

16

Dzisiaj uczyłem wstępnej klasy statystyki, a uczeń podszedł do mnie z pytaniem, które sformułowałem tutaj: „Dlaczego odchylenie standardowe jest zdefiniowane jako sqrt wariancji, a nie jako sqrt sumy kwadratów nad N?”

Definiujemy wariancję populacji:σ2=1N(xiμ)2

I standardowe odchylenie: .σ=σ2=1N(xiμ)2

Interpretacja możemy dać jest to, że daje średnie odchylenie jednostek w populacji od średniej populacji .σX

Jednak w definicji sd dzielimy sqrt sumy kwadratów przez . Pytanie student podnosi to dlaczego nie podzielić sqrt na sume kwadratów przez zamiast. W ten sposób dochodzimy do konkurencyjnej formuły:Uczeń argumentował, że ta formuła wygląda bardziej jak „średnie” odchylenie od średniej niż podczas dzielenia przez jak w .NN

σnew=1N(xiμ)2.
Nσ

Myślałem, że to pytanie nie jest głupie. Chciałbym udzielić odpowiedzi uczniowi, która wykracza poza stwierdzenie, że sd jest zdefiniowane jako sqrt wariancji, która jest średnim odchyleniem do kwadratu. Innymi słowy, dlaczego uczeń powinien stosować prawidłową formułę, a nie podążać za swoim pomysłem?

To pytanie dotyczy starszego wątku i udzielonych tutaj odpowiedzi . Odpowiedzi tam idą w trzech kierunkach:

  1. σ jest odchyleniem średniej kwadratowej (RMS), a nie „typowym” odchyleniem od średniej (tj. σnew ). Dlatego jest różnie zdefiniowany.
  2. Ma ładne właściwości matematyczne.
  3. Ponadto sqrt przywróciłoby „jednostki” do ich pierwotnej skali. Tak też byłoby w przypadku , który zamiast tego dzieli się przezσnewN

Oba punkty 1 i 2 są argumentami na korzyść sd jako RMS, ale nie widzę argumentu przeciwko użyciu . Jakie byłyby dobre argumenty, aby przekonać studentów poziomu wprowadzające wykorzystaniem odległości średnie RMS ze średnią? σσnewσ

tomka
źródło
2
Myślę, że na pytanie „Dlaczego odchylenie standardowe jest definiowane jako…” trudno jest odpowiedzieć. Definicje to tylko arbitralne konwencje etykietowania. Nie muszą dostosowywać się do powodów .
ttnphns
"Why is the standard deviation defined as sqrt of variance and not as average of [the root of] sum of squares?"Czy to możliwe, że to, co jest w nawiasach, zagubiło się w pytaniu?
ttnphns
1
Ale sd służy wielu celom; musi istnieć lepsza motywacja niż to, że tak ją zdefiniowano. Byłoby to przydatne, szczególnie w nauczaniu studentów. Mogę sobie wyobrazić motywację w sensie nierówności Czebyszewa (min. Odsetek przypadków w dziedzinie +/- stały współczynnik sd).
tomka
2
Nie mogę odpowiedzieć, ponieważ twoje Q jest zawieszone, ale spróbuj tego: Wyobraź sobie, że obserwujesz wartości 1 i 3 w mniej więcej równych proporcjach (rzuć monetą, , T = 1 ). „Typowa odległość” obserwacji od średniej powinna wynosić mniej więcej 1. Z twoim H=3T=1weź pod uwagę, co dzieje się z miarą typowej odległości dlanbardzo, bardzo dużych. W każdym przypadku| xi- ˉ x | będzie blisko 1, więc ich suma kwadratów będzie bliskan. Licznik będzie zbliżony doSSE/nn|xix¯|n więc twoja formuła będzie się zmniejszać wraz zewzrostemn, nawet jeśli typowa odległość od średniej się nie zmienia. nn
Glen_b
1
@ Whuber Zrobiłem kolejną aktualizację i mam nadzieję, że mój punkt widzenia jest teraz jaśniejszy. Uwaga Proszę tutaj o porady dydaktyczne oprócz pytania o fundusze statystyki. Nie sugeruję alternatywnej formuły, ale podałem przykład z dobrej klasy pytania zadanego przez ucznia, na które nie miałem natychmiastowej odpowiedzi. Jeśli się zgadzasz, uprzejmie proszę o zwolnienie pytania.
tomka

Odpowiedzi:

12

Istnieją co najmniej trzy podstawowe problemy, które można łatwo wytłumaczyć początkującym:

  1. „Nowa” SD nie jest nawet zdefiniowana dla nieskończonych populacji. (W takich przypadkach można zadeklarować, że zawsze będzie równa zero, ale to nie uczyni go bardziej użytecznym).

  2. Nowy SD nie zachowuje się tak, jak powinna robić średnia przy losowym próbkowaniu.

  3. Chociaż nowego SD można używać z całą dyscypliną matematyczną do oceny odchyleń od średniej (w próbkach i skończonych populacjach), jego interpretacja jest niepotrzebnie skomplikowana.

1. Możliwość zastosowania nowego SD jest ograniczona

Punkt (1) można odnieść do domu, nawet dla tych, którzy nie są zaznajomieni z integracją, wskazując, że ponieważ wariancja jest wyraźnie średnią arytmetyczną (odchyleń kwadratowych), ma przydatne rozszerzenie na modele „nieskończonych” populacji, dla których intuicja dotycząca istnienia średniej arytmetycznej jest nadal aktualna. Dlatego jego pierwiastek kwadratowy - zwykle SD - jest również doskonale zdefiniowany w takich przypadkach i równie przydatny w swojej roli, jak (nieliniowa reekspresja) wariancji. Jednak nowy SD dzieli tę średnią przez dowolnie duży , co sprawia, że ​​problematyczne jest uogólnienie poza skończone populacje i skończone próbki: co powinno1/N. być traktowany jako równy w takich przypadkach?1/N.

2. Nowa SD nie jest średnią

Każda statystyka warta nazwy „średnia” powinna mieć właściwość, która jest zbieżna z wartością populacji wraz ze wzrostem wielkości próby losowej z populacji. Każda stała wielokrotność SD miałaby tę właściwość, ponieważ mnożnik miałby zastosowanie zarówno do obliczania przykładowej SD, jak i SD populacji. (Chociaż nie jest to sprzeczne bezpośrednio z argumentem przedstawionym przez Alecosa Papadopoulosa, ta obserwacja sugeruje, że argument jest jedynie styczny do rzeczywistych problemów.) Jednak „nowa” SD, równa razy większa od zwykłej, oczywiście zbiega się do0we wszystkich okolicznościach, gdy wielkość próbkiNrośnie. Dlatego,chociaż dla każdej ustalonej wielkości próbkiNnowy SD (odpowiednio interpretowany) jest całkowicie odpowiednią miarą zmienności wokół średniej,nie można w uzasadniony sposób uznać go zauniwersalnypomiar mający taką samą interpretację dla wszystkich wielkości próby, ani nie może poprawnie nazywać się „średnią” w jakimkolwiek użytecznym znaczeniu.1/N0N.N.

3. Nowa karta SD jest skomplikowana w interpretacji i użyciu

Rozważ pobranie próbek (powiedzmy) rozmiaru . Nowa SD w tych przypadkach wynosi 1 / N.=4razy większej niż SD. Dlatego ma porównywalne interpretacje, takie jak analog reguły 68-95-99 (około 68% danych powinno mieścić się wdwóchnowych SD średniej, 95% z nich wczterechnowych SD średniejitp.; i utrzymają się wersje klasycznych nierówności, takie jak Czebychev (nie więcej niż1/k2danych może znajdować się w odległości większej niż2knowych SD od ich średniej); a Centralne Twierdzenie Graniczne można analogicznie przekształcić w odniesieniu do nowego SD (dzieli się przez1/N=1/21/k22k razy nowy SD w celu standaryzacji zmiennej). Zatem w tym konkretnym i wyraźnie ograniczonym sensienie ma nic złego w propozycji studenta. Trudność polega jednak na tym, że wszystkie te stwierdzenia zawierają - całkiem wyraźnie - czynnikiN. Chociaż nie ma z tym nieodłącznego problemu matematycznego, z pewnością komplikuje stwierdzenia i interpretację najbardziej podstawowych praw statystyki.N=2


Należy zauważyć, że Gauss i inni sparametryzowali rozkład Gaussa przez , skutecznie używając2σ krotność SD, aby określić ilościowo rozkład normalnej zmiennej losowej. To historyczne zastosowanie pokazuje słuszność i skuteczność używania innychstałychwielokrotności SD zamiast tego.2

Whuber
źródło
Dziękuję - jedno pytanie wstecz (odnoszące się do punktu 2): czy nie zbiega się do0,gdyNrośnie, podczas gdy11N0N oczywiście? 1N
tomka
2
Porównujemy SD próbki do razy SD z próbki („nowy SD”). GdyNrośnie, SD w próbce zbliża się do (zwykle) niezerowejstałejrównej SD populacji. Dlatego1/1/NN razy próbka SD zbiega się do zera. 1/N
whuber
Jest to standardowy materiał - zapoznaj się z jakimkolwiek rygorystycznym podręcznikiem statystyki matematycznej (który, mówiąc uczciwie, nie byłby dostępny dla większości początkujących). Jednak wyniki ważne dla mojej odpowiedzi wynikają ze słabszego i intuicyjnie oczywistego stwierdzenia. Napraw liczbę i niech σ będzie SD populacji. Rozważ szansę, że próbka SD będzie znajdować się między σ / A i A σ . Wystarczy, że ta szansa spadnie do zera wraz ze wzrostem wielkości próby N. To samo pokazuje, że 1 / A>1σσ/AAσN razy próbka SDprawie na pewnozbiega się do0, co pokazuje punkt (2) w odpowiedzi. 1/N0
whuber
+1, plus nie jest to niezmiennik skali itp. (Warunek konieczny do momentu tej formy)
Nikos M.,
@Nikos Dziękuję, ale co nie jest niezmienną skalą? Oba iSDzmieniają się po przeskalowaniu danych. SD/NSD
whuber
5

Załóżmy, że twoja próbka zawiera tylko dwie realizacje. Myślę, że intuicyjną miarą dyspersji byłoby średnie bezwzględne odchylenie (AAD)

AAD=12(|x1x¯|+|x2x¯|)=...=|x1x2|2

Chcielibyśmy więc, aby inne miary dyspersji na tym samym poziomie jednostek miar były „zbliżone” do powyższego.

Wariancja próbki jest zdefiniowana jako

σ2=12[(x1x¯)2+(x2x¯)2]=12[(x1x22)2+(x2x12)2]

=12[(x1x2)24+(x1x2)24]=12(x1x2)22

=12|x1x2|22

q

q12|x1x2|22=12|x1x2|2=12AAD<AAD

i.e. we would have "downplayed" the "intuitive" measure of dispersion, while if we have considered the standard deviation as defined,

SDσ2=|x1x2|2=AAD

Since we want to "stay as close as possible" to the intuitive measure, we should use SD.

ADDENDUM
Let's consider now a sample of size n We have

nAAD=i=1n|xix¯|

and

nVar(X)=i=1n(xix¯)2=i=1n|xix¯|2

we can write the right-hand side of the variance expression as

i=1n|xix¯|2=(i=1n|xix¯|)2ji|xix¯||xjx¯|

=(nAAD)2ji|xix¯||xjx¯|

Then the dispersion measure qn will be

qn1n[n2AAD2ji|xix¯||xjx¯|]1/2

=[AAD21n2ji|xix¯||xjx¯|]1/2

Now think informally: note that ji|xix¯||xjx¯| contains n2n terms, and so divided by n2 will left us with "one term in the second power". But also "one term in the 2nd power" is what we have in AAD2: this is a primitive way to "sense" why qn will tend to zero as n grows large. On the other hand the Standard Deviation as defined would be

SD1n[n2AAD2ji|xix¯||xjx¯|]1/2

=[nAAD21nji|xix¯||xjx¯|]1/2

Continuing are informal thinking, the first term gives us n "terms in the 2nd power", while the second term gives us n1 "terms in the second power" . So we will be left eventually with one such term, as n grows large, and then we will take its square root.
This does not mean that the Standard Deviation as defined will equal the Average Absolute Deviation in general (it doesn't), but it does show that it is suitably defined so as to be "on a par" with it for any n, as well as for the case when n.

Alecos Papadopoulos
źródło
1
Although this answer is interesting, I believe there are more important, convincing, and rigorous explanations (of which I have offered only a few in my own answer: much more could be said, especially concerning the role of the SD in the Central Limit theorem and algebraic rules for computing SDs of sums of independent random variables).
whuber
2
@whuber Certainly. I just opted for a "the bell has rung" approach to destroy the student's intermission!
Alecos Papadopoulos