Dlaczego pierwiastek kwadratowy wariancji tworzy odchylenie standardowe?

26

Przepraszam, jeśli odpowiedź została udzielona w innym miejscu, nie udało mi się jej znaleźć.

Zastanawiam się, dlaczego w szczególności wykorzystujemy pierwiastek kwadratowy wariancji, aby stworzyć odchylenie standardowe? Co to znaczy wziąć pierwiastek kwadratowy, który daje użyteczną wartość?

Dave
źródło
Ściśle związane: stats.stackexchange.com/questions/35123/…
Sycorax mówi Przywróć Monikę
2
Pomyśl o standardowym odchyleniu jako euklidesowej normie wektorowej, a następnie o wariancji jako kwadracie. Ta definicja wariancji i odchylenia standardowego okazuje się mieć przydatne właściwości analityczne.
theideasmith

Odpowiedzi:

44

W pewnym sensie jest to trywialne pytanie, ale w innym jest dość głębokie!

  • Jak wspomnieli, biorąc pierwiastek kwadratowy oznacza Stdev(X) jest w tych samych jednostkach co X .

  • Wykorzystanie pierwiastka kwadratowego daje absolutną jednorodność, czyli absolutną skalowalność . Dla każdej skalarnej α i zmiennej losowej X mamy:

    Stdev[αX]=|α|Stdev[X]
    absolutna jednorodność jest żądane właściwości z normą . Odchylenie standardowe można interpretować jako normę (w przestrzeni wektorowej średnich zerowych zmiennych losowych) w podobny sposób, że x2+y2+z2 jest standardową normą euklidesową w trójwymiarowym przestrzeń. Odchylenie standardowe jest miarą odległości między zmienną losową a jej średnią.

Odchylenie standardowe i norma L2

Przypadek wymiaru skończonego:

W wymiarowej przestrzeni wektorowej standardowa norma normą jest zdefiniowana jako:nL2

x2=ixi2

Mówiąc szerzej, -norm bierze root, aby uzyskać absolut jednorodność: .p xp=(i|xi|p)1ppαxp=(i|αxi|p)1p=|α|(i|xi|p)1p=|α|xp

Jeśli masz wagi wówczas ważona suma jest również prawidłową normą. Ponadto jest to odchylenie standardowe, jeśli reprezentuje prawdopodobieństwa iqiixi2qiqiE[x]ixiqi=0

Przypadek o nieskończonym wymiarze:

W nieskończonej przestrzeni Hilbert Space możemy podobnie zdefiniować normę :L2

X2=ωX(ω)2dP(ω)

Jeśli jest losową zmienną o wartości średniej zero, a jest miarą prawdopodobieństwa, jakie jest odchylenie standardowe? To samo: .XPωX(ω)2dP(ω)

Podsumowanie:

Biorąc pierwiastek kwadratowy sprawia, że ​​odchylenie standardowe spełnia absolutną jednorodność , wymaganą właściwość normy .

Na powierzchni zmiennych losowych jest wewnętrzny produkt i norma wywołana przez ten wewnętrzny produkt . Zatem odchylenie standardowe jest normą poniższej zmiennej losowej: nazwa nazwa Jest to miara odległości od średniej nazwa do .X,Y=E[XY]X 2 = X2=E[X2] Stdev[X]=X-E[X]2E[X]X

Stdev[X]=XE[X]2
E[X]X

(Punkt techniczny: podczas gdy nazwa jest normą, standardowe odchylenie nazwa nazwa ogólnie nie jest normą w stosunku do zmiennych losowych, ponieważ wymaganie dla znormalizowanej przestrzeni wektorowej to wtedy i tylko wtedy, gdy . Standardowe odchylenie 0 nie t oznacza, że ​​zmienna losowa jest elementem zerowym.)E[X2]E[(XE[X])2]x=0x=0x=0x=0

Matthew Gunn
źródło
1
Ta odpowiedź naprawdę stanowi sedno problemu, dzięki czemu jest bardziej informacyjna niż obecnie akceptowana.
00prometeusz
26

Wariancja jest zdefiniowana jako , więc jest to oczekiwanie kwadratowej różnicy między X a jego wartością oczekiwaną.V ( X ) = E ( X - E ( X ) ) 2XV(X)=E(XE(X))2

Jeśli jest czasem w sekundach, jest w sekundach, ale jest w a jest ponownie w sekundach.X - E ( X ) V ( X ) sekundy 2 XXE(X)V(X)seconds2V.(X)

HStamper
źródło
Ach, rozumiem, to tylko cofnięcie zmiany skali, która wynikała z wyrównania różnic w obliczeniu wariancji?
Dave
11
Racja - ale zmiana wymiarów , a nie skali.
Jean-François Corbett
Ale to nie tak, że istnieje jeden termin: jest ich wiele, a każdy przy władzy 2 przynosi więcej lub mniej niż inne warunki. Ale kiedy weźmiemy pierwiastek kwadratowy, w pewnym sensie zaniedbujemy tę różnicę, prawda? Nie otrzymalibyśmy początkowego licznika, sumy wszystkich różnic w ten sposób. Czy nie lepiej byłoby wyliczyć pierwiastek kwadratowy z każdego pojedynczego terminu?
parsecer
Wygląda na to, że myślisz o oszacowaniu na podstawie próbki. W takim przypadku różnice byłyby zerowane: . Σ n i = 1 (xi- ˉ x )=Σ n i = 1 X.ı-Ď n i = 1 Xi=0V.^ja=1n(xja-x¯)=ja=1nxja-ja=1nxja=0
HStamper
@EricMittman Tyle, że , nie , w którym to przypadku wystąpiłby średni błąd bezwzględny . zaza2)=|za|za
Dougal,
6

Prosta odpowiedź jest taka, że ​​jednostki są w tej samej skali co średnia. Przykład: Oceniam średnią dla drugiego ucznia na 160 cm przy standardowym odchyleniu (SD) 20 cm. Jest intuicyjnie łatwiej zorientować się w odmianie z SD niż wariancji 400cm ^ 2.

Optymista
źródło
0

Mówiąc prościej, odchylenie standardowe ma dać nam liczbę dodatnią, która mówi coś o rozprzestrzenianiu się naszych danych na temat jego średniej.

Gdybyśmy po prostu zsumowali odległości wszystkich punktów od średniej, wówczas punkty w kierunku dodatnim i ujemnym połączyłyby się w sposób, który miałby tendencję do cofania się w kierunku średniej i stracilibyśmy informacje o rozkładzie. Dlatego najpierw mierzymy wariancję, aby wszystkie odległości były zachowywane jako wartości dodatnie za pomocą kwadratu i nie eliminowały się nawzajem. Na koniec chcemy dodatniej wartości, która reprezentuje jednostki, od których zaczęliśmy - zostało to już skomentowane powyżej - więc przyjmujemy dodatni pierwiastek kwadratowy.

DC_Beardly
źródło
-3

To historyczna głupota, którą kontynuujemy z powodu intelektualnego lenistwa. Zdecydowali się wyrównać różnice od średniej, aby pozbyć się znaku minus. Następnie wzięli pierwiastek kwadratowy, aby doprowadzić go do skali podobnej do średniej.

Ktoś powinien wygenerować nowe statystyki, wariancję obliczeniową i SD, używając modułu lub bezwzględnych wartości odchylenia od średniej. Pozwoliłoby to pozbyć się całego kwadratu, a następnie zająć pierwiastek kwadratowy.

Asir Ajmal
źródło
1
Mamy to już w postaci średniego (lub mediany) absolutnego odchylenia, norm L1 i tym podobnych. Jednak Główną zaletą tradycyjnego podejścia jest to, że w przeciwieństwie do wartości bezwzględnych, jest różniczkowalna, co pozwala zminimalizować analitycznie i rzeczy Maksymalizuj.
Matt Krause,
1
Nie podajesz merytorycznego uzasadnienia swojego stanowiska, proszę podać jasno określony argument matematyczny. Suma wartości bezwzględnych skaluje się bardzo różnie od pierwiastka kwadratowego z sumy kwadratów. Ten ostatni podkreśla wkład wartości ekstremalnych, co jest użyteczną właściwością. Ponadto SSQ ma kluczowe znaczenie dla metod analitycznych metodą najmniejszych kwadratów. Poświęć trochę czasu na rozwinięcie problemów SD i porównania alternatyw, aby czytelnicy mogli zrozumieć twój punkt widzenia. .
ReneBt
(-1) Zbyt łatwo jest odczytywać takie zwroty jak „historyczna głupota” i „lenistwo intelektualne” jako odnoszące się do samego siebie.
whuber