Jeśli mój histogram pokazuje krzywą w kształcie dzwonu, czy mogę powiedzieć, że moje dane są zwykle dystrybuowane?

11

Stworzyłem histogram dla wieku respondenta i udało mi się uzyskać bardzo ładną krzywą w kształcie dzwonu, z której doszedłem do wniosku, że rozkład jest normalny.

Następnie przeprowadziłem test normalności w SPSS, przy n = 169. p (Sig.) Testu Kołmogorowa-Smirnowa jest mniejsza niż 0,05, a zatem dane naruszyły założenie normalności.

Dlaczego test wskazuje, że rozkład wieku nie jest normalny, ale histogram pokazuje krzywą w kształcie dzwonu, która z mojego zrozumienia jest normalna? Który wynik powinienem śledzić?

NoraNorad
źródło
8
Dlaczego testujesz normalność?
Glen_b
6
Oprócz doskonałego komentarza @ Glen_b i równie doskonałej odpowiedzi Aksakala , zauważ, że nawet w przypadku ciągłych rozkładów KS wymaga, aby średnia i sd były znane z góry , a nie szacowane na podstawie danych. Zasadniczo czyni to test KS bezużytecznym. „Test Kołmogorowa-Smirnowa jest tylko historyczną ciekawostką. Nigdy nie należy go stosować”. (D'Agostino w d'Agostino i Stephens, red., 1986). Jeśli w ogóle, użyj zamiast tego Shapiro-Wilks.
Stephan Kolassa
6
@Stephan Kolassa Dobra rada, ale masz na myśli Shapiro-Wilk. (Sugestie MB Wilk i SS Wilks są często zdezorientowane lub zdezorientowane; dziwne użycie ich jako zaborczych w języku angielskim również może przyczynić się do zamieszania, nawet dla wielu, którzy mają angielski jako swój pierwszy język.)
Nick Cox,
2
W związku z komentarzem @StephanKolassa, zobacz Czy Shapiro-Wilk jest najlepszym testem normalności? ... odpowiedź brzmi: niekoniecznie, w zależności od interesującej Cię alternatywy, ale bardzo często jest to dobry wybór.
Silverfish,

Odpowiedzi:

34

Zwykle wiemy, że niemożliwe jest, aby zmienna była dokładnie normalnie rozłożona ...

Rozkład normalny ma nieskończenie długie ogony rozciągające się w obu kierunkach - mało prawdopodobne jest, aby dane leżały daleko w tych skrajnościach, ale dla prawdziwego rozkładu normalnego musi być fizycznie możliwe. W przypadku grup wiekowych normalnie rozłożony model przewiduje, że istnieje niezerowe prawdopodobieństwo, że dane leżą w granicach 5 odchyleń standardowych powyżej lub poniżej średniej - co odpowiadałoby fizycznie niemożliwym wiekom, takim jak poniżej 0 lub powyżej 150. (Chociaż jeśli spojrzysz na populacji piramidy , to nie jest jasne, dlaczego można oczekiwać wiek się nawet w przybliżeniu rozkład normalny w pierwszej kolejności). Podobnie, jeśli miał dane Heights, który intuicyjnie mogą wskutek rozkładu bardziej „normalne-like”, to może być tylko dobrze normalne, jeśli istnieje szansa wysokości poniżej 0 cm lub powyżej 300 cm.

Czasami widziałem, jak sugeruje to, że możemy uniknąć tego problemu, centrując dane tak, aby miały zero. W ten sposób możliwe są zarówno pozytywne, jak i negatywne „stulecia”. Ale chociaż sprawia to, że zarówno ujemne wartości są fizycznie wiarygodne, jak i interpretowalne (ujemne wyśrodkowane wartości odpowiadają faktycznym wartościom leżącym poniżej średniej), nie można obejść problemu, że normalny model wygeneruje fizycznie niemożliwe prognozy z niezerowym prawdopodobieństwem, gdy tylko dekodować modelowany „wiek centrowany” z powrotem do „wieku rzeczywistego”.

... więc po co zawracać sobie głowę testowaniem? Nawet jeśli nie jest dokładna, normalność może być nadal użytecznym modelem

Ważnym pytaniem nie jest tak naprawdę to, czy dane są dokładnie normalne - wiemy, że z góry nie może tak być w większości przypadków, nawet bez przeprowadzenia testu hipotez - ale czy przybliżenie jest wystarczająco bliskie dla twoich potrzeb. Widzisz pytanie, czy testowanie normalności jest zasadniczo bezużyteczne? Rozkład normalny jest wygodnym przybliżeniem dla wielu celów. Rzadko jest „poprawny” - ale ogólnie nie musi być dokładnie poprawny, aby był użyteczny. Spodziewałbym się, że rozkład normalny jest zwykle rozsądnym modelem wysokości ludzi, ale wymagałoby to bardziej niezwykłego kontekstu, aby rozkład normalny miał sens jako model wieku ludzi.

Jeśli naprawdę czujesz potrzebę przeprowadzenia testu normalności, to Kolmogorov-Smirnov prawdopodobnie nie jest najlepszą opcją: jak zauważono w komentarzach, dostępne są bardziej zaawansowane testy. Shapiro-Wilk ma dobrą siłę przeciwko wielu możliwym alternatywom i ma tę zaletę, że nie musisz wcześniej znać prawdziwego środka i wariancji . Należy jednak pamiętać, że w małych próbkach potencjalnie dość duże odchylenia od normalności mogą nadal pozostać niewykryte, podczas gdy w dużych próbkach nawet bardzo małe (i ze względów praktycznych nieistotne) odchylenia od normalności mogą okazać się „bardzo znaczące” (niskie p -wartość).

„W kształcie dzwonu” niekoniecznie jest normalne

Wygląda na to, że kazano ci myśleć o danych w kształcie dzwonu - danych symetrycznych, które osiągają maksimum w środku i które mają mniejsze prawdopodobieństwo w ogonach - jako „normalne”. Ale rozkład normalny wymaga określonego kształtu do szczytu i ogonów. Istnieją inne dystrybucje o podobnym kształcie na pierwszy rzut oka, które możesz również scharakteryzować jako „w kształcie dzwonu”, ale które nie są normalne. Chyba że masz dużo danych, prawdopodobnie nie będziesz w stanie rozróżnić, że „wygląda to na taką gotową dystrybucję, ale nie tak jak inne”. A jeśli masz dużo danych, można prawdopodobnie znaleźć nie wygląda zupełnie jak każdy dystrybucji w ogóle „off-the-shelf”! Ale w takim przypadku do wielu celów ty ”

Galeria dystrybucji w kształcie dzwonu

Rozkład normalny jest „kształt dzwonu” jesteś przyzwyczajony; Cauchy- ma pik ostre i „cięższe” (to znaczy zawierający więcej prawdopodobieństwo) ogon; t rozkład z 5 stopni swobody pochodzi gdzieś pomiędzy (normalną, t nieskończoną DF i Cauchy- jest T z 1 df, tak że sens); rozkład wykładniczy Laplace'a lub podwójne jest utworzone z dwóch PDF przeskalowana wykładniczej rozkładów z powrotem do tyłu, w wyniku piku większy od rozkładu normalnego; dystrybucja Betajest zupełnie inna - na przykład nie ma ogonów, które zmierzają w nieskończoność, zamiast ostrych odcięć - ale nadal może mieć kształt „garbu” pośrodku. Właściwie, grając z parametrami, można również uzyskać rodzaj „wypaczonego garbu”, a nawet kształtu „U” - galeria na linkowanej stronie Wikipedii jest dość pouczająca o elastyczności tej dystrybucji. Wreszcie rozkład trójkątny jest kolejnym prostym rozkładem na skończonej podstawie, często stosowanym w modelowaniu ryzyka.

Prawdopodobnie żadna z tych dystrybucji nie opisuje dokładnie twoich danych i istnieje bardzo wiele innych dystrybucji o podobnych kształtach, ale chciałem odnieść się do błędnego przekonania, że ​​„garbiony w środku i z grubsza symetryczny oznacza normalny”. Ponieważ istnieją fizyczne ograniczenia danych wieku, jeśli twoje dane wieku są „garbowane” pośrodku, nadal możliwe jest, że rozkład z ograniczonym wsparciem, takim jak Beta lub nawet rozkład trójkątny, może okazać się lepszym modelem niż ten z nieskończonymi ogonami jak normalne. Zauważ, że nawet jeśli twoje dane rzeczywiście były normalnie rozłożone, histogram nadal raczej nie będzie przypominał klasycznego „dzwonka”, chyba że twoja próbka jest dość duża. Nawet próbka z rozkładu takiego jak Laplace, którego pdf jest wyraźnie odróżnialny od normalnego ze względu na jego guzek,

Próbki normalne i Laplace'a o różnej wielkości

Kod R.

par(mfrow=c(3,2))
plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)") 
plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy") 
plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df") 
plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)") 
plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)")
plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular")

par(mfrow=c(3,2))
normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")}
laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")}

# No random seed is set
# Re-run the code to see the variability in histograms you might expect from sample to sample
normalhist(50); laplacehist(50)
normalhist(100); laplacehist(100)
normalhist(200); laplacehist(200)
Silverfish
źródło
11

Wiek nie może pochodzić z normalnego rozkładu. Myśl logicznie: nie możesz mieć ujemnego wieku, ale normalny rozkład pozwala na liczby ujemne.

Istnieje wiele rozkładów w kształcie dzwonu. Jeśli coś wygląda w kształcie dzwonu, nie oznacza to, że musi być normalne.

Nie ma sposobu, aby dowiedzieć się czegoś na pewno w statystykach, w tym o tym, z której dystrybucji pochodzą dane. Kształt jest wskazówką: kształt dzwonu jest jednym argumentem za normalnym rozkładem. Również zrozumienie danych jest bardzo ważne. Zmienna taka jak wiek jest często wypaczona, co wykluczałoby normalność. Jak wspomniano, rozkład normalny nie ma granic, ale czasami jest stosowany w przypadku zmiennych ograniczonych. Na przykład, jeśli średni wiek wynosi 20 lat, a odchylenie standardowe wynosi 1, wówczas prawdopodobieństwo wieku <17 lub> 23 jest mniejsze niż 0,3%. Jest więc możliwe, że rozkład normalny może być dobrym przybliżeniem .

Możesz spróbować uruchomić test statystyczny normalności, taki jak Jarque-Bera, który uwzględnia skośność i kurtozę próbki. Kurtoza może być ważna w niektórych przypadkach. Jest to bardzo ważne w finansach, ponieważ jeśli modelujesz dane z rozkładem normalnym, ale dane pochodzą w rzeczywistości z rozkładu grubego, możesz nie docenić ryzyka i cen aktywów.

Pomogłoby ci to w zgłoszeniu niektórych statystyk opisowych lub histogramu danych dotyczących wieku i wzrostu, takich jak średnia, wariancja, skośność, kurtoza.

Aksakal
źródło
Dziękuję za pomoc, czy możesz mi powiedzieć, jak wiedzieć, że niektóre dane pochodzą z normalnego rozkładu, na przykład w odpowiedzi stwierdzono, że wiek nie może pochodzić z normalnego rozkładu, co z innymi danymi, takimi jak wzrost. Jakie są kryteria, które muszę wiem. chcę dowiedzieć się więcej na ten temat, ponieważ wydaje się, że źle zrozumiałem tę koncepcję, ponieważ jestem w tym nowy. dzięki jeszcze raz.
NoraNorad,
4
Jednak rozkład normalny jest często stosowany jako przybliżenie takich zmiennych, jak wiek. I to nie jest tak naprawdę problem, ponieważ możesz zdefiniować age_centredjako age - mean(age)i masz zmienną ze średnią 0, z pewnym odchyleniem standardowym, wartościami dodatnimi i ujemnymi. Więc nie byłbym tak surowy.
Tim
3
Nie możesz też mieć ujemnej wysokości dla ludzi, ale nie stanowiłoby to dla mnie bariery dla opisania wysokości jako normalnie rozłożonej, gdyby to było dobre przybliżenie. W takim razie po co stosować dowolny rozkład z nieskończonymi granicami do pomiarów, które mogą być tylko skończone? Jak mówi @Tim, wszystko jest kwestią przybliżenia akceptowalnego z uwagi na dane i cel.
Nick Cox,
1
Zgadzam się, że rozkład normalny może czasem być dobrym przybliżeniem danych ograniczonych, ale pytanie dotyczyło tego, czy dane pochodzą z normalności, czy nie.
Aksakal,
Wiek seniorów kończących szkołę średnią może być potencjalnie rozkładany, a także przyjmować wartości ujemne, jeśli są one wyśrodkowane, jak wspomniano @ Tim.
ui_90jax,