Czy odchylenie standardowe jest całkowicie błędne? Jak obliczyć std dla wysokości, zliczeń itp. (Liczby dodatnie)?

13

Powiedzmy, że obliczam wysokości (w cm), a liczby muszą być większe od zera.

Oto przykładowa lista:

0.77132064
0.02075195
0.63364823
0.74880388
0.49850701
0.22479665
0.19806286
0.76053071
0.16911084
0.08833981

Mean: 0.41138725956196015
Std: 0.2860541519582141

W tym przykładzie, zgodnie z rozkładem normalnym, 99,7% wartości musi znajdować się między ± 3-krotnością standardowego odchylenia od średniej. Jednak nawet dwukrotnie standardowe odchylenie staje się ujemne:

-2 x std calculation = 0.41138725956196015 - 0.2860541519582141 x 2 = -0,160721044354468

Jednak moje liczby muszą być dodatnie. Muszą więc być powyżej 0. Mogę zignorować liczby ujemne, ale wątpię, aby to był właściwy sposób obliczania prawdopodobieństw przy użyciu odchylenia standardowego.

Czy ktoś może mi pomóc zrozumieć, czy używam tego w prawidłowy sposób? Czy też muszę wybrać inną metodę?

Cóż, szczerze mówiąc, matematyka to matematyka. Nie ma znaczenia, czy jest to rozkład normalny, czy nie. Jeśli działa z liczbami bez znaku, powinien również działać z liczbami dodatnimi! Czy się mylę?

EDYCJA 1: Dodano histogram

Aby być bardziej przejrzystym, dodałem histogram moich danych rzeczywistych wprowadź opis zdjęcia tutaj

EDYCJA 2: Niektóre wartości

Mean: 0.007041500928135767
Percentile 50: 0.0052000000000000934
Percentile 90: 0.015500000000000047
Std: 0.0063790857035425025
Var: 4.06873389299246e-05
Don Coder
źródło
28
Myślę, że nieporozumienie polega na tym, że rozkład, który może mieć tylko liczby dodatnie, nie jest normalny, więc reguła 99,7%, którą podajesz, nie ma zastosowania. Po drugie, z (przykładowej) formuły odchylenia standardowego widać, że żadna z pierwotnych wartości nie jest dodatnia - więc dlaczego miałaby być błędna? Może być tak, że jest źle stosowany , ale statystyki są w większości agnostyczne i nie należy ich stosować bezmyślnie.
Momo
8
Piękno reguły 68-95-99.7, @Momo, polega na tym, że ma ona zastosowanie nawet do wielu zdecydowanie nietypowych dystrybucji. W tym przypadku 50% liczb mieści się w granicach 1 sd średniej, a 100% mieści się w 2 sds średniej. Zauważ, że 68% dokładnie przybliża 50%, a 95% dokładnie przybliża 100% w zakresie odchyleń, których moglibyśmy oczekiwać od tak małego zestawu danych. Zatem przykład ten ilustruje praktyczną zasadę, nawet jeśli może być trochę nieprzekonująca ze względu na jej mały rozmiar.
whuber
2
Zgadzam się. Pozwól, że poprawię to, aby „aby reguła 99,7%, którą podajesz, niekoniecznie miała zastosowanie”. Źródłem zamieszania tutaj wydaje się zastosowanie tego jako czegoś więcej niż ogólnej zasady, a nie w kategoriach twoich niuansów „w przybliżeniu w zakresie odchyleń, których moglibyśmy się spodziewać”. Ostatni komentarz PO pokazuje to po prostu.
Momo
4
Czy tytuł powinien zostać zmieniony na „Jak zastosować regułę 68-95-99.7 do danych, które muszą być dodatnie”? Myślę, że to oddaje ducha pytania. (To nie jest problem ze sposobem obliczania odchylenia standardowego, co sugeruje tytuł, ale raczej ze sposobu, w jaki jest on wykorzystywany do znajdowania prawdopodobieństw.)
Silverfish
4
Odchylenie standardowe nie jest „złe”. Mniej dokładne jest traktowanie normalnych rzeczy, które nie są; proporcje poza daną liczbą standardowych odchyleń sugerowanych przez normalność nie zawsze będą dokładne dla innych rozkładów. W przypadku ciągłych rozkładów unimodalnych, blisko 2 odchyleń standardowych, przedziały dwustronne są często dość rozsądne, ale z drugiej strony prawdopodobieństwo ogona może mieć bardzo wysokie błędy względne.
Glen_b

Odpowiedzi:

23

Jeśli liczby mogą być dodatnie, modelowanie ich jako rozkładu normalnego może nie być pożądane w zależności od przypadku użycia, ponieważ rozkład normalny jest obsługiwany na wszystkich liczbach rzeczywistych.

Być może chciałbyś modelować wysokość jako rozkład wykładniczy, a może ścięty rozkład normalny?

EDYCJA: Po zobaczeniu twoich danych, wygląda na to, że może dobrze pasować do rozkładu wykładniczego! Można oszacować parametr , biorąc na przykład podejście oparte na maksymalnym prawdopodobieństwie.λ

Kevin Li
źródło
10
Pierwsze zdanie jest ogólnie niepoprawne: wiele wielkości, które są ściśle dodatnie, często można aproksymować rozkładem normalnym. Jeśli masa prawdopodobieństwa poniżej 0 jest bardzo mała, nie ma to znaczenia dla wszystkich praktycznych celów. W tym konkretnym przypadku jest to z pewnością słuszne.
COOLSerdash
13
-1 Ta odpowiedź odzwierciedla szeroko rozpowszechnione (i niezwykle szkodliwe) błędne przekonanie o tym, czym jest model statystyczny i co tak naprawdę oznacza modelowanie danych z rozkładem normalnym. Rzeczywiście, gdybyśmy uwierzyli w to, co mówi ten post, wówczas „na pewno niepoprawne” byłoby przybliżenie rozkładu dwumianowego rozkładem normalnym - ale historycznie jest to pierwotnie i prawdopodobnie najbardziej rozpowszechnione zastosowanie rozkładu normalnego! (Edycja: usunąłem głos negatywny, ponieważ zmieniłeś pierwotne roszczenie na bardziej poprawne i przydatne).
whuber
4
To zależy od tego, co rozumiesz przez „przełożonego”. Część kosztu modelu leży w tym, co potrzeba do jego wdrożenia. Jeśli zastosujesz skrócony model normalny, prawdopodobnie wykonasz wiele niestandardowych obliczeń numerycznych zamiast szybkich, łatwych i być może bardzo dokładnych obliczeń analitycznych. Innym celem modelu jest zapewnienie wglądu : myśli się: „jeśli natura zachowuje się co najmniej w przybliżeniu tak, jak te założenia, to jakie konsekwencje można wywnioskować z tych założeń?” Często dokonywanie takich wniosków jest łatwiejsze dzięki prostemu przybliżeniu.
whuber
2
@ whuber: po „pięknie” dokładnie dodałem w myślach „źle”. Przepraszam. Oczywiście także „przydatne” na Box.
Stephan Kolassa
2
Nawet jeśli dane składają się z wartości niecałkowitych?
Kevin Li
19

„Jaki jest właściwy sposób zastosowania 68-95-99.7 w mojej sprawie?”

Należy oczekiwać, że ta ogólna zasada będzie obowiązywała tylko wtedy, gdy (1) patrzysz na całą (nieskończoną) populację lub teoretyczny rozkład prawdopodobieństwa , a (2) rozkład jest dokładnie normalny .

Jeśli weźmiesz losową próbkę wielkości 20, nawet z naprawdę normalnego rozkładu, nie zawsze okaże się, że 95% danych (19 z 20 pozycji) mieści się w granicach 2 (lub 1.960) standardowych odchyleń średniej. W rzeczywistości nie ma gwarancji, że 19 z 20 pozycji będzie mieściło się w granicach 1,960 odchyleń standardowych od średniej populacji, ani że 19 z 20 pozycji będzie mieścić się w granicach 1,960 odchyleń standardowych od średniej próby.

Jeśli weźmiesz próbkę danych z rozkładu, który nie jest całkiem normalnie rozłożony, to znowu nie można oczekiwać, że reguła 68-95-99,7 będzie miała zastosowanie dokładnie. Może to jednak być dość bliskie, szczególnie jeśli wielkość próby jest duża (zasada „99,7% pokrycia” może nie być szczególnie znacząca w przypadku wielkości próby poniżej 1000), a rozkład jest dość zbliżony do normalności. Teoretycznie wiele danych, takich jak wzrost czy waga, nie mogło pochodzić z dokładnie normalnego rozkładu lub oznaczałoby to małe, ale niezerowe prawdopodobieństwo, że będą ujemne. Niemniej jednak w przypadku danych o w przybliżeniu symetrycznym i unimodalnym rozkładzie, w których wartości średnie są bardziej powszechne, a ekstremalnie wysokie lub niskie wartości spadają, model rozkładu normalnego może być odpowiedni do celów praktycznych.Jeśli mój histogram pokazuje krzywą w kształcie dzwonu, czy mogę powiedzieć, że moje dane są zwykle dystrybuowane?

Jeśli chcesz teoretycznie wiążących granic, które odnoszą się do dowolnego rozkładu, zobacz nierówność Czebyszewa , która stwierdza, że ​​najwyżej wartości może leżeć więcej niż k1/k2kstandardowe odchylenia od średniej. Gwarantuje to, że co najmniej 75% danych mieści się w granicach dwóch odchyleń standardowych od średniej, a 89% w granicach trzech odchyleń standardowych. Ale te liczby są tylko teoretycznie gwarantowanym minimum. W przypadku wielu rozkładów w przybliżeniu w kształcie dzwonu przekonasz się, że zakres pokrycia dwóch standardowych odchyleń jest znacznie bliższy 95% niż 75%, a zatem „praktyczna zasada” z rozkładu normalnego jest nadal przydatna. Z drugiej strony, jeśli twoje dane pochodzą z dystrybucji, która nie jest zbliżona do kształtu dzwonu, możesz być w stanie znaleźć alternatywny model, który lepiej opisuje dane i ma inną zasadę zasięgu.

(Jedną fajną rzeczą w regule 68-95-99.7 jest to, że ma ona zastosowanie do każdego rozkładu normalnego, niezależnie od jego parametrów dla średniej lub odchylenia standardowego. Podobnie nierówność Czebyszewa obowiązuje niezależnie od parametrów, a nawet rozkładu, chociaż tylko daje niższe granice zasięgu. Ale jeśli zastosujesz, na przykład, ścięty model normalny lub skośny model normalny , wówczas nie będzie prostego odpowiednika zasięgu „68-95-99.7”, ponieważ zależałoby to od parametrów rozkładu .)

Silverfish
źródło
7

Czy ktoś może mi pomóc zrozumieć, czy używam tego w prawidłowy sposób?

Och, to łatwe. Nie, nie używasz go poprawnie.

Po pierwsze, używasz raczej małego zestawu danych. Próba wyeliminowania zachowań statystycznych z tego zestawu rozmiarów jest z pewnością możliwa, ale granice ufności są (ahem) dość duże. W przypadku małych zestawów danych odchylenia od oczekiwanych rozkładów są równe dla kursu, a im mniejszy zestaw, tym większy problem. Pamiętajcie: „Prawo średnich nie tylko dopuszcza najbardziej oburzające zbiegi okoliczności, ale ich wymaga”.

Co gorsza, konkretny zestaw danych, którego używasz, po prostu nie przypomina normalnego rozkładu. Pomyśl o tym - ze średnią .498 masz dwie próbki poniżej 0,1, a trzy kolejne w .748 lub wyższej. Następnie masz klaster 3 punktów między 0,17 a 0,22. Spojrzenie na ten konkretny zestaw danych i argumentowanie, że musi to być rozkład normalny, jest całkiem dobrym przykładem argumentów Procrustean. Czy to wygląda dla ciebie jak krzywa dzwonowa? Jest całkiem możliwe, że większa populacja ma rozkład normalny lub zmodyfikowany normalny, a większa próba rozwiązałaby ten problem, ale nie postawiłbym na to, szczególnie bez wiedzy o populacji.

Mówię zmodyfikowane normalne, ponieważ, jak zauważył Kevin Li, technicznie rozkład normalny obejmuje wszystkie liczby rzeczywiste. Jak wskazano również w komentarzach do jego odpowiedzi, nie wyklucza to zastosowania takiego rozkładu w ograniczonym zakresie i uzyskania użytecznych wyników. Jak mówi przysłowie: „Wszystkie modele są złe. Niektóre są przydatne”.

Ale ten konkretny zestaw danych po prostu nie wygląda na wnioskowanie o rozkładzie normalnym (nawet w ograniczonym zakresie) jest szczególnie dobrym pomysłem. Jeśli Twoje 10 punktów danych wyglądało jak .275, .325, .375, .425, .475, .525, .575, .625, .675, .725 (średnio 0,500), czy przyjąłbyś rozkład normalny?

James Martin
źródło
Użyłem przypadkowych danych, aby wyjaśnić moje potrzeby i problem
Don Coder
1
@DonCoder Losowe dane (o ile nie zostały w jakiś sposób poprawione) byłyby zgodne z rozkładem jednolitym, a nie z rozkładem normalnym.
barrycarter
5
Losowe dane muszą być generowane z pewnej dystrybucji. Który wybrałeś?
Peter Flom - Przywróć Monikę
Dodałem histogram moich prawdziwych danych
Don Coder
2

W jednym z komentarzy mówisz, że użyłeś „danych losowych”, ale nie mówisz z jakiej dystrybucji. Jeśli mówisz o wysokościach ludzi, są one z grubsza normalnie rozmieszczone, ale twoje dane nie są odpowiednio dostosowane do wysokości ludzi - twoje są ułamki cm!

Twoje dane nie są zdalnie normalne. Zgaduję, że zastosowałeś rozkład równomierny z granicami 0 i 1. I wygenerowałeś bardzo małą próbkę. Spróbujmy z większą próbką:

set.seed(1234)  #Sets a seed
x <- runif(10000, 0 , 1)
sd(x)  #0.28

więc żadna z danych nie jest większa niż 2 sd od średniej, ponieważ jest to poza granicami danych. A część w ciągu 1 sd będzie wynosić około 0,56.

Peter Flom - Przywróć Monikę
źródło
1

Często, gdy masz ograniczenie, że wszystkie próbki muszą być dodatnie, warto spojrzeć na logarytm danych, aby sprawdzić, czy rozkład można aproksymować za pomocą rozkładu logarytmicznego.

spłukać
źródło
1

Obliczenie odchylenia standardowego odnosi się do średniej. Czy możesz zastosować odchylenie standardowe do liczb, które zawsze są dodatnie? Absolutnie. Jeśli dodasz 1000 do każdej wartości w zestawie próbek, zobaczysz tę samą wartość odchylenia standardowego, ale zapewnisz sobie więcej miejsca do oddychania powyżej zera.

s=i=1N(xix¯)2N1=i=1N((xi+k)(x¯+k))2N1

Jednak dodanie arbitralnej stałej do danych jest powierzchowne. W przypadku stosowania odchylenia standardowego dla tak małego zestawu danych należy oczekiwać nieoczyszczonego wyniku. Rozważ standardowe odchylenie jak obiektyw aparatu z automatyczną regulacją ostrości: im więcej czasu (danych) dasz, tym wyraźniejszy będzie obraz. Jeśli po prześledzeniu 1000000 punktów danych średnia i odchylenie standardowe pozostaną takie same jak w przypadku 10, mogę zacząć kwestionować ważność eksperymentu.

Ian MacDonald
źródło
1

Twój histogram pokazuje, że rozkład normalny nie jest dobrze dopasowany. Możesz spróbować lognormal lub czegoś innego, co jest asymetryczne i ściśle pozytywne

Aksakal
źródło
1

Chodzi o to, że wielu z nas jest leniwych *, a normalna dystrybucja jest wygodna w pracy z nami dla leniwych ludzi. Obliczenia przy użyciu rozkładu normalnego są łatwe i mają dobre podstawy matematyczne. Jako taki jest to „model” pracy z danymi. Ten model często działa zaskakująco dobrze, a czasem pada na twarz.

Jest bardzo oczywiste, że twoje próbki nie wskazują na normalny rozkład danych. Tak więc rozwiązaniem twojego dylematu jest wybór innego „modelu” i praca z inną dystrybucją. Rozkłady Weibulla mogą być ukierunkowane, istnieją inne.

  • leniwy, nie bardzo poznając dane i wybierając lepsze modele, jeśli to konieczne.
ghellquist
źródło
0

Zasadniczo używasz danych współczynnika w przeciwieństwie do danych przedziału. Geografowie cały czas to analizują, obliczając S / D dla rocznych opadów deszczu w określonym miejscu (ponad 100 lat próbek punktów, powiedzmy w LA Civic Center) lub opadów śniegu (ponad 100 lat próbek śniegu w Big Bear Lake). Możemy mieć tylko liczby dodatnie, tak po prostu jest.

Jim Woods
źródło
0

W meteorologii rozkład prędkości wiatru wygląda bardzo podobnie. Z definicji prędkości wiatru również nie są ujemne.

W twoim przypadku zdecydowanie przyjrzałbym się rozkładowi Weibulla .

boseki
źródło
0

Zaczynasz od „zgodnie z normalnym rozkładem”, kiedy twoje dane wyraźnie nie są normalnie dystrybuowane, to pierwszy problem. Mówisz „Nie ma znaczenia, czy jest to rozkład normalny, czy nie”. Co jest absolutnym nonsensem. Nie możesz używać oświadczeń o normalnych danych rozproszonych, jeśli Twoje dane nie są normalnie rozpowszechniane.

I źle interpretujesz oświadczenie. „99,7% musi mieścić się w trzech standardowych odchyleniach”. A 99,7% twoich danych było w granicach trzech standardowych odchyleń. Co więcej, było to 100% w ramach dwóch standardowych odchyleń. To stwierdzenie jest prawdziwe .

gnasher729
źródło