Dzisiaj uczyłem wstępnej klasy statystyki, a uczeń podszedł do mnie z pytaniem, które sformułowałem tutaj: „Dlaczego odchylenie standardowe jest zdefiniowane jako sqrt wariancji, a nie jako sqrt sumy kwadratów nad N?”
Definiujemy wariancję populacji:
I standardowe odchylenie: .
Interpretacja możemy dać jest to, że daje średnie odchylenie jednostek w populacji od średniej populacji .
Jednak w definicji sd dzielimy sqrt sumy kwadratów przez . Pytanie student podnosi to dlaczego nie podzielić sqrt na sume kwadratów przez zamiast. W ten sposób dochodzimy do konkurencyjnej formuły:Uczeń argumentował, że ta formuła wygląda bardziej jak „średnie” odchylenie od średniej niż podczas dzielenia przez jak w .
Myślałem, że to pytanie nie jest głupie. Chciałbym udzielić odpowiedzi uczniowi, która wykracza poza stwierdzenie, że sd jest zdefiniowane jako sqrt wariancji, która jest średnim odchyleniem do kwadratu. Innymi słowy, dlaczego uczeń powinien stosować prawidłową formułę, a nie podążać za swoim pomysłem?
To pytanie dotyczy starszego wątku i udzielonych tutaj odpowiedzi . Odpowiedzi tam idą w trzech kierunkach:
- jest odchyleniem średniej kwadratowej (RMS), a nie „typowym” odchyleniem od średniej (tj. ). Dlatego jest różnie zdefiniowany.
- Ma ładne właściwości matematyczne.
- Ponadto sqrt przywróciłoby „jednostki” do ich pierwotnej skali. Tak też byłoby w przypadku , który zamiast tego dzieli się przez
Oba punkty 1 i 2 są argumentami na korzyść sd jako RMS, ale nie widzę argumentu przeciwko użyciu . Jakie byłyby dobre argumenty, aby przekonać studentów poziomu wprowadzające wykorzystaniem odległości średnie RMS ze średnią? σ
"Why is the standard deviation defined as sqrt of variance and not as average of [the root of] sum of squares?"
Czy to możliwe, że to, co jest w nawiasach, zagubiło się w pytaniu?Odpowiedzi:
Istnieją co najmniej trzy podstawowe problemy, które można łatwo wytłumaczyć początkującym:
„Nowa” SD nie jest nawet zdefiniowana dla nieskończonych populacji. (W takich przypadkach można zadeklarować, że zawsze będzie równa zero, ale to nie uczyni go bardziej użytecznym).
Nowy SD nie zachowuje się tak, jak powinna robić średnia przy losowym próbkowaniu.
Chociaż nowego SD można używać z całą dyscypliną matematyczną do oceny odchyleń od średniej (w próbkach i skończonych populacjach), jego interpretacja jest niepotrzebnie skomplikowana.
1. Możliwość zastosowania nowego SD jest ograniczona
Punkt (1) można odnieść do domu, nawet dla tych, którzy nie są zaznajomieni z integracją, wskazując, że ponieważ wariancja jest wyraźnie średnią arytmetyczną (odchyleń kwadratowych), ma przydatne rozszerzenie na modele „nieskończonych” populacji, dla których intuicja dotycząca istnienia średniej arytmetycznej jest nadal aktualna. Dlatego jego pierwiastek kwadratowy - zwykle SD - jest również doskonale zdefiniowany w takich przypadkach i równie przydatny w swojej roli, jak (nieliniowa reekspresja) wariancji. Jednak nowy SD dzieli tę średnią przez dowolnie duży , co sprawia, że problematyczne jest uogólnienie poza skończone populacje i skończone próbki: co powinno1/ √N.--√ być traktowany jako równy w takich przypadkach?1 / N--√
2. Nowa SD nie jest średnią
Każda statystyka warta nazwy „średnia” powinna mieć właściwość, która jest zbieżna z wartością populacji wraz ze wzrostem wielkości próby losowej z populacji. Każda stała wielokrotność SD miałaby tę właściwość, ponieważ mnożnik miałby zastosowanie zarówno do obliczania przykładowej SD, jak i SD populacji. (Chociaż nie jest to sprzeczne bezpośrednio z argumentem przedstawionym przez Alecosa Papadopoulosa, ta obserwacja sugeruje, że argument jest jedynie styczny do rzeczywistych problemów.) Jednak „nowa” SD, równa razy większa od zwykłej, oczywiście zbiega się do0we wszystkich okolicznościach, gdy wielkość próbkiNrośnie. Dlatego,chociaż dla każdej ustalonej wielkości próbkiNnowy SD (odpowiednio interpretowany) jest całkowicie odpowiednią miarą zmienności wokół średniej,nie można w uzasadniony sposób uznać go zauniwersalnypomiar mający taką samą interpretację dla wszystkich wielkości próby, ani nie może poprawnie nazywać się „średnią” w jakimkolwiek użytecznym znaczeniu.1 / N--√ 0 N. N.
3. Nowa karta SD jest skomplikowana w interpretacji i użyciu
Rozważ pobranie próbek (powiedzmy) rozmiaru . Nowa SD w tych przypadkach wynosi 1 / √N.= 4 razy większej niż SD. Dlatego ma porównywalne interpretacje, takie jak analog reguły 68-95-99 (około 68% danych powinno mieścić się wdwóchnowych SD średniej, 95% z nich wczterechnowych SD średniejitp.; i utrzymają się wersje klasycznych nierówności, takie jak Czebychev (nie więcej niż1/k2danych może znajdować się w odległości większej niż2knowych SD od ich średniej); a Centralne Twierdzenie Graniczne można analogicznie przekształcić w odniesieniu do nowego SD (dzieli się przez √1/N−−√=1/2 1/k2 2k razy nowy SD w celu standaryzacji zmiennej). Zatem w tym konkretnym i wyraźnie ograniczonym sensienie ma nic złego w propozycji studenta. Trudność polega jednak na tym, że wszystkie te stwierdzenia zawierają - całkiem wyraźnie - czynniki √N−−√ . Chociaż nie ma z tym nieodłącznego problemu matematycznego, z pewnością komplikuje stwierdzenia i interpretację najbardziej podstawowych praw statystyki.N−−√=2
Należy zauważyć, że Gauss i inni sparametryzowali rozkład Gaussa przez , skutecznie używając √2–√σ krotność SD, aby określić ilościowo rozkład normalnej zmiennej losowej. To historyczne zastosowanie pokazuje słuszność i skuteczność używania innychstałychwielokrotności SD zamiast tego.2–√
źródło
Załóżmy, że twoja próbka zawiera tylko dwie realizacje. Myślę, że intuicyjną miarą dyspersji byłoby średnie bezwzględne odchylenie (AAD)
Chcielibyśmy więc, aby inne miary dyspersji na tym samym poziomie jednostek miar były „zbliżone” do powyższego.
Wariancja próbki jest zdefiniowana jako
i.e. we would have "downplayed" the "intuitive" measure of dispersion, while if we have considered the standard deviation as defined,
Since we want to "stay as close as possible" to the intuitive measure, we should useSD .
ADDENDUMn We have
Let's consider now a sample of size
and
we can write the right-hand side of the variance expression as
Then the dispersion measureqn will be
Now think informally: note that∑j≠i|xi−x¯||xj−x¯| contains n2−n terms, and so divided by n2 will left us with "one term in the second power". But also "one term in the 2nd power" is what we have in AAD2 : this is a primitive way to "sense" why qn will tend to zero as n grows large. On the other hand the Standard Deviation as defined would be
Continuing are informal thinking, the first term gives usn "terms in the 2nd power", while the second term gives us n−1 "terms in the second power" . So we will be left eventually with one such term, as n grows large, and then we will take its square root.n , as well as for the case when n→∞ .
This does not mean that the Standard Deviation as defined will equal the Average Absolute Deviation in general (it doesn't), but it does show that it is suitably defined so as to be "on a par" with it for any
źródło