Przyczyny normalnej dystrybucji danych

19

Jakie są niektóre twierdzenia, które mogą wyjaśnić (tj. Generalnie), dlaczego można oczekiwać normalnej dystrybucji danych w świecie rzeczywistym?

Są dwa, które znam:

  1. Centralne twierdzenie graniczne (oczywiście), które mówi nam, że suma kilku niezależnych zmiennych losowych o średniej i wariancji (nawet jeśli nie są one identycznie rozmieszczone) zmierza w kierunku rozkładu normalnego

  2. Niech X i Y będą niezależnymi ciągłymi RV o różnej gęstości, tak że ich łączna gęstość zależy tylko od + . Zatem X i Y są normalne.x2)y2)

(cross-post z mathexchange )

Edycja: Aby wyjaśnić, nie twierdzę, ile normalnych danych jest zwykle dystrybuowanych. Pytam tylko o twierdzenia, które mogą dać wgląd w to, jakie procesy mogą prowadzić do normalnie rozproszonych danych.

anonimowy
źródło
7
Interesujący pokrewny materiał można znaleźć w naszym wątku na stronie stats.stackexchange.com/questions/4364 . Aby uniknąć potencjalnych nieporozumień między niektórymi czytelnikami, chciałbym dodać (i mam nadzieję, że taka była twoja intencja), że twoje pytanie nie powinno być czytane jako sugerujące, że wszystkie lub nawet większość rzeczywistych zbiorów danych można odpowiednio aproksymować za pomocą normalnego rozkładu. Przeciwnie, w niektórych przypadkach, gdy spełnione są określone warunki, przydatne może być zastosowanie rozkładu normalnego jako punktu odniesienia do zrozumienia lub interpretacji danych: jakie mogą być te warunki?
whuber
Dziękuję za link! I to jest dokładnie słuszne, dziękuję za wyjaśnienie. Zmienię go na oryginalny post.
anonimowy
@ user43228, „ Istnieje mnóstwo innych dystrybucji, które powstają w rzeczywistych problemach, które wcale nie wyglądają normalnie.askamathematician.com/2010/02/…
Pacerier

Odpowiedzi:

17

Wiele ograniczających rozkładów dyskretnych RV (poissona, dwumianu itp.) Jest w przybliżeniu normalnych. Pomyśl o Plinko. W prawie wszystkich przypadkach, w których obowiązuje przybliżona normalność, normalność rozpoczyna się tylko w przypadku dużych próbek.

Większość rzeczywistych danych NIE jest zwykle dystrybuowana. Artykuł Micceri (1989) zatytułowany „ Jednorożec, krzywa normalna i inne nieprawdopodobne stworzenia ” analizował 440 osiągnięć na dużą skalę i mierniki psychometryczne. Odkrył dużą zmienność rozkładów w stosunku do ich momentów i niewiele dowodów na (nawet przybliżoną) normalność.

W artykule Stevena Stiglera z 1977 r. Zatytułowanym „ Do Robust Estimators Work with Real Data ” wykorzystał 24 zestawy danych zebrane ze słynnych XVIII-wiecznych prób pomiaru odległości od Ziemi do Słońca oraz z XIX-wiecznych prób pomiaru prędkości światła. W tabeli 3 podał skośność próbki i kurtozę. Dane są grubościenne.

W statystykach zakładamy normalność często, ponieważ sprawia, że ​​maksymalne prawdopodobieństwo (lub inna metoda) jest wygodne. Jednak dwa cytowane powyżej artykuły pokazują, że założenie to jest często niepewne. Dlatego badania odporności są przydatne.

bsbk
źródło
2
Większość tego postu jest świetna, ale akapit wprowadzający mnie niepokoi, ponieważ można go tak łatwo zinterpretować. To wydaje się powiedzieć - dość wyraźnie - że w ogóle, „duża próbka” będzie wyglądać rozkład normalny. W świetle twoich późniejszych uwag nie sądzę, że naprawdę chciałeś to powiedzieć.
whuber
Powinienem był wyrazić się bardziej jasno - nie sugeruję, że większość rzeczywistych danych jest zwykle dystrybuowana. Ale to świetny punkt do podniesienia. Zakładam, że masz na myśli, że rozkład dwumianowy o dużej n jest normalny, a rozkład Poissona o dużej średniej jest normalny. Jakie inne rozkłady dążą do normalności?
anonimowy
Dzięki, zredagowałem pierwszy akapit. Zobacz na przykład Wald i Wolfowitz (1944) twierdzenie o formach liniowych w permutacji. Tzn. Wykazali, że statystyka t dla dwóch próbek w permutacji jest asymptotycznie normalna.
bsbk
Rozkład próbkowania nie jest „prawdziwym zestawem danych”! Być może trudność, jaką mam z widocznymi niespójnościami w twoim poście, wynika z tego pomieszania między dystrybucją a danymi. Być może wynika to z niejasności co do tego, jaki „ograniczający” proces faktycznie masz na myśli.
whuber
3
Pierwotne pytanie dotyczyło wyjaśnienia „generatywnie”, w jaki sposób mogą powstać normalne dane ze świata rzeczywistego. Można sobie wyobrazić, że rzeczywiste dane mogą być generowane z procesu dwumianowego lub procesu Poissona, które można aproksymować rozkładem normalnym. Op poprosił o inne przykłady, a ten, który przyszedł mi do głowy, to rozkład permutacji, który jest asymptotycznie normalny (przy braku powiązań). Nie mogę wymyślić żadnego sposobu, by z tej dystrybucji były generowane rzeczywiste dane, więc może to jest odcinek.
bsbk
10

Istnieje również teoretyczne uzasadnienie dla zastosowania rozkładu normalnego. Biorąc pod uwagę średnią i wariancję, rozkład normalny ma maksymalną entropię wśród wszystkich rozkładów prawdopodobieństwa o wartościach rzeczywistych. Istnieje wiele źródeł omawiających tę właściwość. Krótki można znaleźć tutaj . Bardziej ogólne omówienie motywacji do zastosowania rozkładu Gaussa, obejmujące większość argumentów wymienionych do tej pory, można znaleźć w tym artykule z magazynu Signal Processing.

Igor
źródło
6
Jest to odwrotne, jak rozumiem. Chodzi o to, jak założenie normalności w ściśle określonym sensie jest założeniem słabym. Nie rozumiem, co to sugeruje w prawdziwych danych. Równie dobrze można argumentować, że krzywe są zazwyczaj proste, ponieważ jest to najprostsze założenie, jakie można przyjąć na temat krzywizny. Epistemologia nie ogranicza ontologii! Jeśli cytowane odniesienie wykracza poza to, proszę podać argumenty.
Nick Cox,
3

W fizyce jest to CLT, który jest zwykle cytowany jako przyczyna normalnie rozkładanych błędów w wielu pomiarach.

Dwa najczęstsze rozkłady błędów w fizyce eksperymentalnej są normalne i Poissona. Ten ostatni występuje zwykle w pomiarach zliczania, takich jak rozpad radioaktywny.

Inną interesującą cechą tych dwóch rozkładów jest to, że suma zmiennych losowych z Gaussa i Poissona należy do Gaussa i Poissona.

Istnieje kilka książek na temat statystyki w naukach eksperymentalnych, takich jak ta : Gerhard Bohm, Günter Zech, Wprowadzenie do statystyki i analizy danych dla fizyków, ISBN 978-3-935702-41-6

Aksakal
źródło
0

CLT jest niezwykle przydatny podczas wnioskowania na temat rzeczy takich jak populacja, ponieważ docieramy do niego poprzez obliczenie pewnego rodzaju liniowej kombinacji kilku indywidualnych pomiarów. Kiedy jednak staramy się wyciągać wnioski na temat indywidualnych obserwacji, zwłaszcza przyszłych ( np. Przedziały prognozowania), odchylenia od normalności są znacznie ważniejsze, jeśli interesują nas ogony rozkładu. Na przykład, jeśli mamy 50 obserwacji, dokonujemy bardzo dużej ekstrapolacji (i skoku wiary), kiedy mówimy coś o prawdopodobieństwie przyszłej obserwacji będącej co najmniej 3 standardowymi odchyleniami od średniej.

Emil Friedman
źródło