Przepraszam, jeśli odpowiedź została udzielona w innym miejscu, nie udało mi się jej znaleźć.
Zastanawiam się, dlaczego w szczególności wykorzystujemy pierwiastek kwadratowy wariancji, aby stworzyć odchylenie standardowe? Co to znaczy wziąć pierwiastek kwadratowy, który daje użyteczną wartość?
Odpowiedzi:
W pewnym sensie jest to trywialne pytanie, ale w innym jest dość głębokie!
Jak wspomnieli, biorąc pierwiastek kwadratowy oznaczaStdev( X) jest w tych samych jednostkach co X .
Wykorzystanie pierwiastka kwadratowego daje absolutną jednorodność, czyli absolutną skalowalność . Dla każdej skalarnejα i zmiennej losowej X mamy:
Stdev[ α X] = | α | Stdev[ X]
absolutna jednorodność jest żądane właściwości z normą . Odchylenie standardowe można interpretować jako normę (w przestrzeni wektorowej średnich zerowych zmiennych losowych) w podobny sposób, że x2)+ y2)+ z2)----------√ jest standardową normą euklidesową w trójwymiarowym przestrzeń. Odchylenie standardowe jest miarą odległości między zmienną losową a jej średnią.
Odchylenie standardowe i normaL.2)
Przypadek wymiaru skończonego:
W wymiarowej przestrzeni wektorowej standardowa norma normą jest zdefiniowana jako:n L.2)
Mówiąc szerzej, -norm bierze root, aby uzyskać absolut jednorodność: .p ∥ x ∥p= ( ∑ja| xja|p)1p p ∥ α x ∥p= ( ∑ja|α xja|p)1p= | α | ( ∑ja|xja|p)1p= |α | ∥ x ∥p
Jeśli masz wagi wówczas ważona suma jest również prawidłową normą. Ponadto jest to odchylenie standardowe, jeśli reprezentuje prawdopodobieństwa iqja ∑jax2)jaqja------√ qja mi[ x ] ≡ ∑jaxjaqja= 0
Przypadek o nieskończonym wymiarze:
W nieskończonej przestrzeni Hilbert Space możemy podobnie zdefiniować normę :L.2)
Jeśli jest losową zmienną o wartości średniej zero, a jest miarą prawdopodobieństwa, jakie jest odchylenie standardowe? To samo: .X P. ∫ωX( ω )2)reP.( ω )------------√
Podsumowanie:
Biorąc pierwiastek kwadratowy sprawia, że odchylenie standardowe spełnia absolutną jednorodność , wymaganą właściwość normy .
Na powierzchni zmiennych losowych jest wewnętrzny produkt i norma wywołana przez ten wewnętrzny produkt . Zatem odchylenie standardowe jest normą poniższej zmiennej losowej: nazwa nazwa Jest to miara odległości od średniej nazwa do .⟨ X, Y⟩ = E[ XY] ‖ X ‖ 2 = √∥ X∥2)= E[ X2)]-----√ Stdev[X]=‖X-E[X]‖2E[X]XStdev[ X] = ∥ X- E[ X] ∥2) mi[ X] X
(Punkt techniczny: podczas gdy nazwa jest normą, standardowe odchylenie nazwa nazwa ogólnie nie jest normą w stosunku do zmiennych losowych, ponieważ wymaganie dla znormalizowanej przestrzeni wektorowej to wtedy i tylko wtedy, gdy . Standardowe odchylenie 0 nie t oznacza, że zmienna losowa jest elementem zerowym.)mi[ X2)]-----√ mi[ ( X- E[ X] )2)]------------√ ‖x‖=0x=0∥ x ∥ = 0 x = 0
źródło
Wariancja jest zdefiniowana jako , więc jest to oczekiwanie kwadratowej różnicy między X a jego wartością oczekiwaną.V ( X ) = E ( X - E ( X ) ) 2X V.( X) = E( X- E( X) )2)
Jeśli jest czasem w sekundach, jest w sekundach, ale jest w a jest ponownie w sekundach.X - E ( X ) V ( X ) sekundy 2 √X X- E( X) V.( X) sekundy2) V.( X)-----√
źródło
Prosta odpowiedź jest taka, że jednostki są w tej samej skali co średnia. Przykład: Oceniam średnią dla drugiego ucznia na 160 cm przy standardowym odchyleniu (SD) 20 cm. Jest intuicyjnie łatwiej zorientować się w odmianie z SD niż wariancji 400cm ^ 2.
źródło
Mówiąc prościej, odchylenie standardowe ma dać nam liczbę dodatnią, która mówi coś o rozprzestrzenianiu się naszych danych na temat jego średniej.
Gdybyśmy po prostu zsumowali odległości wszystkich punktów od średniej, wówczas punkty w kierunku dodatnim i ujemnym połączyłyby się w sposób, który miałby tendencję do cofania się w kierunku średniej i stracilibyśmy informacje o rozkładzie. Dlatego najpierw mierzymy wariancję, aby wszystkie odległości były zachowywane jako wartości dodatnie za pomocą kwadratu i nie eliminowały się nawzajem. Na koniec chcemy dodatniej wartości, która reprezentuje jednostki, od których zaczęliśmy - zostało to już skomentowane powyżej - więc przyjmujemy dodatni pierwiastek kwadratowy.
źródło
To historyczna głupota, którą kontynuujemy z powodu intelektualnego lenistwa. Zdecydowali się wyrównać różnice od średniej, aby pozbyć się znaku minus. Następnie wzięli pierwiastek kwadratowy, aby doprowadzić go do skali podobnej do średniej.
Ktoś powinien wygenerować nowe statystyki, wariancję obliczeniową i SD, używając modułu lub bezwzględnych wartości odchylenia od średniej. Pozwoliłoby to pozbyć się całego kwadratu, a następnie zająć pierwiastek kwadratowy.
źródło