Jest zakorzenione w nauczaniu dyscyplin stosowanych, takich jak medycyna, że pomiary ilości biomedycznych w populacji są zgodne z normalną „krzywą dzwonową”. Zwraca wyszukiwane przez Google ciąg „założyliśmy rozkład normalny”wyniki! Brzmią jak: „biorąc pod uwagę niewielką liczbę ekstremalnych punktów danych, przyjęliśmy normalny rozkład anomalii temperaturowych” w badaniu dotyczącym zmian klimatu; lub „przyjęliśmy normalny rozkład dat wylęgowych piskląt” na możliwie mniej kontrowersyjnym dokumencie na temat pingwinów; lub „przyjęliśmy normalny rozkład szoków wzrostu PKB” , odnosząc się do zmian makroekonomicznych na rynkach (przypominając sobie tę książkę , ... i inne rzeczy).
Ostatnio zastanawiałem się nad traktowaniem danych liczbowych jako normalnie rozłożonych z powodu ich ściśle pozytywnego charakteru. Oczywiście dane zliczania są dyskretne, co czyni ich normalność jeszcze bardziej sztuczną. Ale nawet pomijając ten ostatni punkt, dlaczego ciągłe pomiary empiryczne, takie jak waga, wzrost lub stężenie glukozy, uważane za prototypowo „ciągłe”, należy uważać za normalne? Nie mogą mieć negatywnych spostrzeżeń tak samo jak liczby!
Rozumiem, że gdy odchylenie standardowe jest znacznie niższe niż średnia, co wskazuje na kilka wartości ujemnych („95% kontrola zakresu”), może to być praktyczne założenie, a histogramy częstotliwości mogą je wspierać, jeśli nie są zbyt wypaczone. Ale pytanie nie wydawało się trywialne, a szybkie wyszukiwanie przyniosło ciekawe rzeczy.
W Nature możemy znaleźć następujące oświadczenie w liście DF Heatha : „Chciałbym zaznaczyć, że w przypadku analizy statystycznej niektórych rodzajów danych założenie, że dane pochodzą z normalnej populacji, jest zwykle błędne, i że alternatywa założenie, że rozkład logarytmiczno-normalny jest lepszy. Ta alternatywa jest szeroko stosowana przez statystyków, ekonomistów i fizyków, ale z jakiegoś powodu jest często ignorowana przez naukowców z innych dyscyplin ”.
Limpert zauważa, że „model logarytmiczno-normalny może służyć jako przybliżenie w tym sensie, że wielu naukowców postrzega normę jako prawidłową aproksymację” , jednocześnie zauważając niską moc testów dobroci dopasowania normalności i trudność w wyborze właściwy rozkład empiryczny w przypadku małych próbek.
Dlatego pytanie brzmi: „Kiedy można przyjąć normalny rozkład pomiaru empirycznego w naukach stosowanych bez dalszych dowodów potwierdzających?” I, dlaczego inne alternatywy, takie jak log-normal, nie mają i prawdopodobnie po prostu się nie sprawdzą?
źródło
Odpowiedzi:
Uważam, że twoje pytanie jest naprawdę interesujące. Weźmy pod uwagę kilka rzeczy:
Powiedziawszy to, powiedzenie, że każda obserwowana zmienna podąża za rozkładem normalnym lub log-normalnym, brzmi trochę szalenie. W praktyce mierzysz odchylenia obserwowanych częstotliwości od częstotliwości oczekiwanych, jeśli zmienna pochodzi z populacji normalnej (lub innej dystrybucji). Jeśli możesz powiedzieć, że te odchylenia są przypadkowe, ponieważ próbujesz, możesz powiedzieć, że nie ma wystarczających dowodów, aby odrzucić hipotezę zerową, że ta zmienna pochodzi z normalnej populacji , co jest tłumaczone na to, że będziemy działać ( przy założeniu, że) zmienna ma rozkład normalny .
Odpowiadając na twoje pierwsze pytanie, nie sądzę, aby ktoś tak odważnie stwierdził, że zmienna jest zwykle dystrybuowana bez dalszych dowodów . Aby powiedzieć coś takiego, potrzebujesz co najmniej wykresu qq, histogramu, testu dobroci dopasowania lub ich kombinacji.
Aby odpowiedzieć na drugie pytanie, szczególne zainteresowanie rozkładem normalnym polega na tym, że wiele klasycznych testów opiera się na założeniu normalności zmiennej, takiej jak test t lubχ2) -test dla wariancji. Normalność upraszcza pracę, to wszystko.
źródło