Powiedzmy, że obliczam wysokości (w cm), a liczby muszą być większe od zera.
Oto przykładowa lista:
0.77132064
0.02075195
0.63364823
0.74880388
0.49850701
0.22479665
0.19806286
0.76053071
0.16911084
0.08833981
Mean: 0.41138725956196015
Std: 0.2860541519582141
W tym przykładzie, zgodnie z rozkładem normalnym, 99,7% wartości musi znajdować się między ± 3-krotnością standardowego odchylenia od średniej. Jednak nawet dwukrotnie standardowe odchylenie staje się ujemne:
-2 x std calculation = 0.41138725956196015 - 0.2860541519582141 x 2 = -0,160721044354468
Jednak moje liczby muszą być dodatnie. Muszą więc być powyżej 0. Mogę zignorować liczby ujemne, ale wątpię, aby to był właściwy sposób obliczania prawdopodobieństw przy użyciu odchylenia standardowego.
Czy ktoś może mi pomóc zrozumieć, czy używam tego w prawidłowy sposób? Czy też muszę wybrać inną metodę?
Cóż, szczerze mówiąc, matematyka to matematyka. Nie ma znaczenia, czy jest to rozkład normalny, czy nie. Jeśli działa z liczbami bez znaku, powinien również działać z liczbami dodatnimi! Czy się mylę?
EDYCJA 1: Dodano histogram
Aby być bardziej przejrzystym, dodałem histogram moich danych rzeczywistych
EDYCJA 2: Niektóre wartości
Mean: 0.007041500928135767
Percentile 50: 0.0052000000000000934
Percentile 90: 0.015500000000000047
Std: 0.0063790857035425025
Var: 4.06873389299246e-05
Odpowiedzi:
Jeśli liczby mogą być dodatnie, modelowanie ich jako rozkładu normalnego może nie być pożądane w zależności od przypadku użycia, ponieważ rozkład normalny jest obsługiwany na wszystkich liczbach rzeczywistych.
Być może chciałbyś modelować wysokość jako rozkład wykładniczy, a może ścięty rozkład normalny?
EDYCJA: Po zobaczeniu twoich danych, wygląda na to, że może dobrze pasować do rozkładu wykładniczego! Można oszacować parametr , biorąc na przykład podejście oparte na maksymalnym prawdopodobieństwie.λ
źródło
„Jaki jest właściwy sposób zastosowania 68-95-99.7 w mojej sprawie?”
Należy oczekiwać, że ta ogólna zasada będzie obowiązywała tylko wtedy, gdy (1) patrzysz na całą (nieskończoną) populację lub teoretyczny rozkład prawdopodobieństwa , a (2) rozkład jest dokładnie normalny .
Jeśli weźmiesz losową próbkę wielkości 20, nawet z naprawdę normalnego rozkładu, nie zawsze okaże się, że 95% danych (19 z 20 pozycji) mieści się w granicach 2 (lub 1.960) standardowych odchyleń średniej. W rzeczywistości nie ma gwarancji, że 19 z 20 pozycji będzie mieściło się w granicach 1,960 odchyleń standardowych od średniej populacji, ani że 19 z 20 pozycji będzie mieścić się w granicach 1,960 odchyleń standardowych od średniej próby.
Jeśli weźmiesz próbkę danych z rozkładu, który nie jest całkiem normalnie rozłożony, to znowu nie można oczekiwać, że reguła 68-95-99,7 będzie miała zastosowanie dokładnie. Może to jednak być dość bliskie, szczególnie jeśli wielkość próby jest duża (zasada „99,7% pokrycia” może nie być szczególnie znacząca w przypadku wielkości próby poniżej 1000), a rozkład jest dość zbliżony do normalności. Teoretycznie wiele danych, takich jak wzrost czy waga, nie mogło pochodzić z dokładnie normalnego rozkładu lub oznaczałoby to małe, ale niezerowe prawdopodobieństwo, że będą ujemne. Niemniej jednak w przypadku danych o w przybliżeniu symetrycznym i unimodalnym rozkładzie, w których wartości średnie są bardziej powszechne, a ekstremalnie wysokie lub niskie wartości spadają, model rozkładu normalnego może być odpowiedni do celów praktycznych.Jeśli mój histogram pokazuje krzywą w kształcie dzwonu, czy mogę powiedzieć, że moje dane są zwykle dystrybuowane?
Jeśli chcesz teoretycznie wiążących granic, które odnoszą się do dowolnego rozkładu, zobacz nierówność Czebyszewa , która stwierdza, że najwyżej wartości może leżeć więcej niż k1/k2 k standardowe odchylenia od średniej. Gwarantuje to, że co najmniej 75% danych mieści się w granicach dwóch odchyleń standardowych od średniej, a 89% w granicach trzech odchyleń standardowych. Ale te liczby są tylko teoretycznie gwarantowanym minimum. W przypadku wielu rozkładów w przybliżeniu w kształcie dzwonu przekonasz się, że zakres pokrycia dwóch standardowych odchyleń jest znacznie bliższy 95% niż 75%, a zatem „praktyczna zasada” z rozkładu normalnego jest nadal przydatna. Z drugiej strony, jeśli twoje dane pochodzą z dystrybucji, która nie jest zbliżona do kształtu dzwonu, możesz być w stanie znaleźć alternatywny model, który lepiej opisuje dane i ma inną zasadę zasięgu.
(Jedną fajną rzeczą w regule 68-95-99.7 jest to, że ma ona zastosowanie do każdego rozkładu normalnego, niezależnie od jego parametrów dla średniej lub odchylenia standardowego. Podobnie nierówność Czebyszewa obowiązuje niezależnie od parametrów, a nawet rozkładu, chociaż tylko daje niższe granice zasięgu. Ale jeśli zastosujesz, na przykład, ścięty model normalny lub skośny model normalny , wówczas nie będzie prostego odpowiednika zasięgu „68-95-99.7”, ponieważ zależałoby to od parametrów rozkładu .)
źródło
Och, to łatwe. Nie, nie używasz go poprawnie.
Po pierwsze, używasz raczej małego zestawu danych. Próba wyeliminowania zachowań statystycznych z tego zestawu rozmiarów jest z pewnością możliwa, ale granice ufności są (ahem) dość duże. W przypadku małych zestawów danych odchylenia od oczekiwanych rozkładów są równe dla kursu, a im mniejszy zestaw, tym większy problem. Pamiętajcie: „Prawo średnich nie tylko dopuszcza najbardziej oburzające zbiegi okoliczności, ale ich wymaga”.
Co gorsza, konkretny zestaw danych, którego używasz, po prostu nie przypomina normalnego rozkładu. Pomyśl o tym - ze średnią .498 masz dwie próbki poniżej 0,1, a trzy kolejne w .748 lub wyższej. Następnie masz klaster 3 punktów między 0,17 a 0,22. Spojrzenie na ten konkretny zestaw danych i argumentowanie, że musi to być rozkład normalny, jest całkiem dobrym przykładem argumentów Procrustean. Czy to wygląda dla ciebie jak krzywa dzwonowa? Jest całkiem możliwe, że większa populacja ma rozkład normalny lub zmodyfikowany normalny, a większa próba rozwiązałaby ten problem, ale nie postawiłbym na to, szczególnie bez wiedzy o populacji.
Mówię zmodyfikowane normalne, ponieważ, jak zauważył Kevin Li, technicznie rozkład normalny obejmuje wszystkie liczby rzeczywiste. Jak wskazano również w komentarzach do jego odpowiedzi, nie wyklucza to zastosowania takiego rozkładu w ograniczonym zakresie i uzyskania użytecznych wyników. Jak mówi przysłowie: „Wszystkie modele są złe. Niektóre są przydatne”.
Ale ten konkretny zestaw danych po prostu nie wygląda na wnioskowanie o rozkładzie normalnym (nawet w ograniczonym zakresie) jest szczególnie dobrym pomysłem. Jeśli Twoje 10 punktów danych wyglądało jak .275, .325, .375, .425, .475, .525, .575, .625, .675, .725 (średnio 0,500), czy przyjąłbyś rozkład normalny?
źródło
W jednym z komentarzy mówisz, że użyłeś „danych losowych”, ale nie mówisz z jakiej dystrybucji. Jeśli mówisz o wysokościach ludzi, są one z grubsza normalnie rozmieszczone, ale twoje dane nie są odpowiednio dostosowane do wysokości ludzi - twoje są ułamki cm!
Twoje dane nie są zdalnie normalne. Zgaduję, że zastosowałeś rozkład równomierny z granicami 0 i 1. I wygenerowałeś bardzo małą próbkę. Spróbujmy z większą próbką:
więc żadna z danych nie jest większa niż 2 sd od średniej, ponieważ jest to poza granicami danych. A część w ciągu 1 sd będzie wynosić około 0,56.
źródło
Często, gdy masz ograniczenie, że wszystkie próbki muszą być dodatnie, warto spojrzeć na logarytm danych, aby sprawdzić, czy rozkład można aproksymować za pomocą rozkładu logarytmicznego.
źródło
Obliczenie odchylenia standardowego odnosi się do średniej. Czy możesz zastosować odchylenie standardowe do liczb, które zawsze są dodatnie? Absolutnie. Jeśli dodasz 1000 do każdej wartości w zestawie próbek, zobaczysz tę samą wartość odchylenia standardowego, ale zapewnisz sobie więcej miejsca do oddychania powyżej zera.
Jednak dodanie arbitralnej stałej do danych jest powierzchowne. W przypadku stosowania odchylenia standardowego dla tak małego zestawu danych należy oczekiwać nieoczyszczonego wyniku. Rozważ standardowe odchylenie jak obiektyw aparatu z automatyczną regulacją ostrości: im więcej czasu (danych) dasz, tym wyraźniejszy będzie obraz. Jeśli po prześledzeniu 1000000 punktów danych średnia i odchylenie standardowe pozostaną takie same jak w przypadku 10, mogę zacząć kwestionować ważność eksperymentu.
źródło
Twój histogram pokazuje, że rozkład normalny nie jest dobrze dopasowany. Możesz spróbować lognormal lub czegoś innego, co jest asymetryczne i ściśle pozytywne
źródło
Chodzi o to, że wielu z nas jest leniwych *, a normalna dystrybucja jest wygodna w pracy z nami dla leniwych ludzi. Obliczenia przy użyciu rozkładu normalnego są łatwe i mają dobre podstawy matematyczne. Jako taki jest to „model” pracy z danymi. Ten model często działa zaskakująco dobrze, a czasem pada na twarz.
Jest bardzo oczywiste, że twoje próbki nie wskazują na normalny rozkład danych. Tak więc rozwiązaniem twojego dylematu jest wybór innego „modelu” i praca z inną dystrybucją. Rozkłady Weibulla mogą być ukierunkowane, istnieją inne.
źródło
Zasadniczo używasz danych współczynnika w przeciwieństwie do danych przedziału. Geografowie cały czas to analizują, obliczając S / D dla rocznych opadów deszczu w określonym miejscu (ponad 100 lat próbek punktów, powiedzmy w LA Civic Center) lub opadów śniegu (ponad 100 lat próbek śniegu w Big Bear Lake). Możemy mieć tylko liczby dodatnie, tak po prostu jest.
źródło
W meteorologii rozkład prędkości wiatru wygląda bardzo podobnie. Z definicji prędkości wiatru również nie są ujemne.
W twoim przypadku zdecydowanie przyjrzałbym się rozkładowi Weibulla .
źródło
Zaczynasz od „zgodnie z normalnym rozkładem”, kiedy twoje dane wyraźnie nie są normalnie dystrybuowane, to pierwszy problem. Mówisz „Nie ma znaczenia, czy jest to rozkład normalny, czy nie”. Co jest absolutnym nonsensem. Nie możesz używać oświadczeń o normalnych danych rozproszonych, jeśli Twoje dane nie są normalnie rozpowszechniane.
I źle interpretujesz oświadczenie. „99,7% musi mieścić się w trzech standardowych odchyleniach”. A 99,7% twoich danych było w granicach trzech standardowych odchyleń. Co więcej, było to 100% w ramach dwóch standardowych odchyleń. To stwierdzenie jest prawdziwe .
źródło