Jakie są niektóre twierdzenia, które mogą wyjaśnić (tj. Generalnie), dlaczego można oczekiwać normalnej dystrybucji danych w świecie rzeczywistym?
Są dwa, które znam:
Centralne twierdzenie graniczne (oczywiście), które mówi nam, że suma kilku niezależnych zmiennych losowych o średniej i wariancji (nawet jeśli nie są one identycznie rozmieszczone) zmierza w kierunku rozkładu normalnego
Niech X i Y będą niezależnymi ciągłymi RV o różnej gęstości, tak że ich łączna gęstość zależy tylko od + . Zatem X i Y są normalne.
(cross-post z mathexchange )
Edycja: Aby wyjaśnić, nie twierdzę, ile normalnych danych jest zwykle dystrybuowanych. Pytam tylko o twierdzenia, które mogą dać wgląd w to, jakie procesy mogą prowadzić do normalnie rozproszonych danych.
normal-distribution
central-limit-theorem
anonimowy
źródło
źródło
Odpowiedzi:
Wiele ograniczających rozkładów dyskretnych RV (poissona, dwumianu itp.) Jest w przybliżeniu normalnych. Pomyśl o Plinko. W prawie wszystkich przypadkach, w których obowiązuje przybliżona normalność, normalność rozpoczyna się tylko w przypadku dużych próbek.
Większość rzeczywistych danych NIE jest zwykle dystrybuowana. Artykuł Micceri (1989) zatytułowany „ Jednorożec, krzywa normalna i inne nieprawdopodobne stworzenia ” analizował 440 osiągnięć na dużą skalę i mierniki psychometryczne. Odkrył dużą zmienność rozkładów w stosunku do ich momentów i niewiele dowodów na (nawet przybliżoną) normalność.
W artykule Stevena Stiglera z 1977 r. Zatytułowanym „ Do Robust Estimators Work with Real Data ” wykorzystał 24 zestawy danych zebrane ze słynnych XVIII-wiecznych prób pomiaru odległości od Ziemi do Słońca oraz z XIX-wiecznych prób pomiaru prędkości światła. W tabeli 3 podał skośność próbki i kurtozę. Dane są grubościenne.
W statystykach zakładamy normalność często, ponieważ sprawia, że maksymalne prawdopodobieństwo (lub inna metoda) jest wygodne. Jednak dwa cytowane powyżej artykuły pokazują, że założenie to jest często niepewne. Dlatego badania odporności są przydatne.
źródło
Istnieje również teoretyczne uzasadnienie dla zastosowania rozkładu normalnego. Biorąc pod uwagę średnią i wariancję, rozkład normalny ma maksymalną entropię wśród wszystkich rozkładów prawdopodobieństwa o wartościach rzeczywistych. Istnieje wiele źródeł omawiających tę właściwość. Krótki można znaleźć tutaj . Bardziej ogólne omówienie motywacji do zastosowania rozkładu Gaussa, obejmujące większość argumentów wymienionych do tej pory, można znaleźć w tym artykule z magazynu Signal Processing.
źródło
W fizyce jest to CLT, który jest zwykle cytowany jako przyczyna normalnie rozkładanych błędów w wielu pomiarach.
Dwa najczęstsze rozkłady błędów w fizyce eksperymentalnej są normalne i Poissona. Ten ostatni występuje zwykle w pomiarach zliczania, takich jak rozpad radioaktywny.
Inną interesującą cechą tych dwóch rozkładów jest to, że suma zmiennych losowych z Gaussa i Poissona należy do Gaussa i Poissona.
Istnieje kilka książek na temat statystyki w naukach eksperymentalnych, takich jak ta : Gerhard Bohm, Günter Zech, Wprowadzenie do statystyki i analizy danych dla fizyków, ISBN 978-3-935702-41-6
źródło
CLT jest niezwykle przydatny podczas wnioskowania na temat rzeczy takich jak populacja, ponieważ docieramy do niego poprzez obliczenie pewnego rodzaju liniowej kombinacji kilku indywidualnych pomiarów. Kiedy jednak staramy się wyciągać wnioski na temat indywidualnych obserwacji, zwłaszcza przyszłych ( np. Przedziały prognozowania), odchylenia od normalności są znacznie ważniejsze, jeśli interesują nas ogony rozkładu. Na przykład, jeśli mamy 50 obserwacji, dokonujemy bardzo dużej ekstrapolacji (i skoku wiary), kiedy mówimy coś o prawdopodobieństwie przyszłej obserwacji będącej co najmniej 3 standardowymi odchyleniami od średniej.
źródło