To prawdopodobnie pytanie amatorskie, ale interesuje mnie, w jaki sposób naukowcy wymyślili kształt funkcji gęstości prawdopodobieństwa rozkładu normalnego? Zasadniczo to, co mnie wkurza, to fakt, że dla kogoś może być bardziej intuicyjne, że funkcja prawdopodobieństwa normalnie rozłożonych danych ma kształt trójkąta równoramiennego, a nie krzywej dzwonowej, i jak udowodniłbyś takiej osobie, że funkcja gęstości prawdopodobieństwa wszystkie normalnie dystrybuowane dane mają kształt dzwonka? Eksperymentalnie? A może przez jakieś matematyczne wyprowadzenie?
W końcu, co właściwie uważamy za normalnie dystrybuowane dane? Dane zgodne z rozkładem prawdopodobieństwa rozkładu normalnego, czy coś innego?
Zasadniczo moje pytanie brzmi: dlaczego funkcja gęstości prawdopodobieństwa rozkładu normalnego ma kształt dzwonu, a nie jakikolwiek inny? W jaki sposób naukowcy odkryli, w których scenariuszach z życia można zastosować rozkład normalny, eksperymentalnie lub badając naturę różnych danych?
Tak więc znalazłem ten link, który jest naprawdę pomocny w wyjaśnieniu wyprowadzenia postaci funkcjonalnej krzywej rozkładu normalnego, a zatem w odpowiedzi na pytanie „Dlaczego rozkład normalny wygląda tak, jak on, a nie coś innego?”. Naprawdę zadziwiające rozumowanie, przynajmniej dla mnie.
Odpowiedzi:
„ Ewolucja normalnej dystrybucji ” autorstwa SAUL STAHL jest najlepszym źródłem informacji, na które można odpowiedzieć w zasadzie na wszystkie pytania w poście. Przytoczę kilka punktów tylko dla twojej wygody, ponieważ szczegółową dyskusję znajdziesz w artykule.
Nie, to interesujące pytanie dla każdego, kto korzysta ze statystyk, ponieważ nie jest to szczegółowo omówione w standardowych kursach.
Spójrz na to zdjęcie z gazety. Pokazuje krzywe błędu, które wymyślił Simpson przed odkryciem Gaussa (normalnego) do analizy danych eksperymentalnych. Twoja intuicja jest na miejscu.
Tak, dlatego nazwano je „krzywymi błędów”. Eksperyment obejmował pomiary astronomiczne. Astronomowie zmagali się z błędami pomiaru przez stulecia.
Znowu TAK! Krótko mówiąc: analiza błędów w danych astronomicznych doprowadziła Gaussa do jego (inaczej Normalnego) rozkładu. Oto założenia, które wykorzystał:
Nawiasem mówiąc, Laplace zastosował kilka różnych podejść, a także opracował swoją dystrybucję podczas pracy z danymi astronomicznymi:
Aby wyjaśnić, dlaczego rozkład normalny pokazuje się w eksperymencie jako błędy pomiaru, podajemy typowe wyjaśnienie fizyki (cytat z Gerharda Bohma, Güntera Zecha, Wprowadzenie do statystyki i analizy danych dla fizyków str. 85):
źródło
Wydaje się, że w swoim pytaniu założyłeś, że koncepcja rozkładu normalnego istniała przed ustaleniem rozkładu, a ludzie próbowali dowiedzieć się, co to jest. Nie jest dla mnie jasne, jak to by działało. [Edytuj: istnieje co najmniej jeden sens, który możemy uznać za „poszukiwanie rozkładu”, ale nie jest to „poszukiwanie rozkładu opisującego wiele i wiele zjawisk”]
Nie o to chodzi; rozkład był znany, zanim został nazwany rozkładem normalnym.
Funkcja rozkładu normalnego to coś, co zwykle nazywane jest „kształtem dzwonka” - wszystkie rozkłady normalne mają ten sam „kształt” (w tym sensie, że różnią się jedynie skalą i lokalizacją).
Dane mogą wyglądać mniej więcej w kształcie „dzwonu” w dystrybucji, ale nie jest to normalne. Wiele niestandardowych rozkładów wygląda podobnie „w kształcie dzwonu”.
Rzeczywiste rozkłady populacji, z których pochodzą dane, prawdopodobnie nigdy nie są normalne, chociaż czasami jest to całkiem rozsądne przybliżenie.
Zazwyczaj dotyczy to prawie wszystkich dystrybucji, które stosujemy do rzeczy w prawdziwym świecie - są to modele , a nie fakty o świecie. [Jako przykład, jeśli przyjmiemy pewne założenia (te dla procesu Poissona), możemy wyprowadzić rozkład Poissona - rozkład powszechnie stosowany. Ale czy te założenia są kiedykolwiek dokładnie spełnione? Ogólnie rzecz biorąc, najlepsze, co możemy powiedzieć (we właściwych sytuacjach), to że są one prawie prawdziwe.]
Tak, aby faktycznie zostać normalnie rozłożonym, populacja, z której pobrano próbkę, musiałaby mieć rozkład, który ma dokładnie taką funkcjonalną postać jak rozkład normalny. W rezultacie każda skończona populacja nie może być normalna. Zmienne, które z konieczności są ograniczone, nie mogą być normalne (na przykład czasy zajmowane przez określone zadania, długości poszczególnych rzeczy nie mogą być ujemne, więc nie można ich normalnie rozłożyć).
Nie rozumiem, dlaczego jest to z konieczności bardziej intuicyjne. Z pewnością jest to prostsze.
Kiedy po raz pierwszy opracowywano modele rozkładów błędów (szczególnie dla astronomii we wczesnym okresie), matematycy rozważali różne kształty w odniesieniu do rozkładów błędów (w tym w pewnym wczesnym punkcie rozkład trójkątny), ale w większości tych prac była to matematyka (raczej niż intuicja). Laplace przyjrzał się na przykład podwójnym rozkładom wykładniczym i normalnym (między innymi). Podobnie Gauss wykorzystał matematykę do jej wyprowadzenia mniej więcej w tym samym czasie, ale w odniesieniu do innego zestawu rozważań niż Laplace.
W wąskim sensie, że Laplace i Gauss rozważali „rozkłady błędów”, moglibyśmy uznać za „poszukiwanie rozkładu”, przynajmniej przez jakiś czas. Obie postulowały pewne właściwości dla rozkładu błędów, które uważali za ważne (Laplace uważał sekwencję nieco różnych kryteriów w czasie), prowadząc do różnych rozkładów.
Funkcjonalna forma rzeczy zwanej funkcją normalnej gęstości nadaje temu kształtowi. Rozważ standardową normę (dla uproszczenia; każda inna normalna ma ten sam kształt, różniący się tylko skalą i położeniem):
Chociaż niektórzy ludzie uważali rozkład normalny za „zwykły”, to tak naprawdę tylko w określonych zestawach sytuacji postrzegasz go jako przybliżenie.
Odkrycie rozkładu przypisuje się zwykle de Moivre (w przybliżeniu do dwumianu). W efekcie wyprowadził formę funkcjonalną, próbując aproksymować współczynniki dwumianowe (/ prawdopodobieństwa dwumianowe) w celu przybliżenia skądinąd żmudnych obliczeń, ale - chociaż efektywnie wyprowadza formę rozkładu normalnego - wydaje się, że nie myślał o swoim przybliżeniu jako rozkład prawdopodobieństwa, choć niektórzy autorzy sugerują, że tak. Wymagana jest pewna ilość interpretacji, więc można interpretować różnice.
Gauss i Laplace pracowali nad tym na początku 1800 roku; Gauss napisał o tym w 1809 r. (W związku z tym, że jest to rozkład, dla którego średnią stanowi MLE centrum), a Laplace w 1810 r., Jako przybliżenie rozkładu sum symetrycznych zmiennych losowych. Dziesięć lat później Laplace podaje wczesną formę centralnego twierdzenia o granicy dla zmiennych dyskretnych i ciągłych.
Wczesne nazwy dla dystrybucji obejmują prawo błędu , prawo częstotliwości błędów , a także nazwano go zarówno od Laplace'a, jak i Gaussa, czasami łącznie.
Termin „normalny” został użyty do niezależnego opisania dystrybucji przez trzech różnych autorów w latach 70. XIX wieku (Peirce, Lexis i Galton), pierwszy w 1873 r., A pozostali dwaj w 1877 r. Jest to ponad sześćdziesiąt lat po pracy Gaussa i Laplace'a i ponad dwukrotnie więcej niż w przybliżeniu de Moivre'a. Wykorzystanie go przez Galtona było prawdopodobnie najbardziej wpływowe, ale użył terminu „normalny” w stosunku do niego tylko raz w tym dziele z 1877 r. (Nazywając go „prawem dewiacji”).
Jednak w latach 80. XIX wieku Galton wielokrotnie używał przymiotnika „normalny” w odniesieniu do rozkładu (np. Jako „krzywa normalna” w 1889 r.), A on z kolei miał duży wpływ na późniejszych statystyków w Wielkiej Brytanii (zwłaszcza Karla Pearsona ). Nie powiedział, dlaczego użył terminu „normalny” w ten sposób, ale prawdopodobnie miał na myśli w znaczeniu „typowy” lub „zwykły”.
Pierwsze wyraźne użycie wyrażenia „rozkład normalny” wydaje się być autorstwa Karla Pearsona; z pewnością używa go w 1894 r., choć twierdzi, że używał go już dawno (twierdzenie, które rozważałbym z pewną ostrożnością).
Referencje:
Miller, Jeff
„Najwcześniejsze znane zastosowania niektórych słów matematyki:”
Rozkład normalny (Wpis John Aldrich)
http://jeff560.tripod.com/n.html
Stahl, Saul (2006),
„The Evolution of Normal Distribution”,
Mathematics Magazine , t. 79, nr 2 (kwiecień), s. 96–113
https://www.maa.org/sites/default/files/pdf/upload_library/22/Allendoerfer/stahl96.pdf
Rozkład normalny (2016, 1 sierpnia).
W Wikipedii The Free Encyclopedia.
Pobrano 12:02, 3 sierpnia 2016 r. Z
https://en.wikipedia.org/w/index.php?title=Normal_distribution&oldid=732559095#History
Hald, A (2007),
„Normalne przybliżenie De Moivre'a do dwumianu, 1733 r. I jego uogólnienie”, w
: Historia parametrycznego wnioskowania statystycznego od Bernoulli do Fishera, 1713–1935; s. 17–24
[Możesz zauważyć znaczne rozbieżności między tymi źródłami w odniesieniu do ich konta de Moivre]
źródło
„Normalny” rozkład jest zdefiniowany jako ten konkretny rozkład.
Pytanie brzmi: dlaczego spodziewalibyśmy się, że ten konkretny rozkład będzie powszechny w naturze i dlaczego jest tak często wykorzystywany jako przybliżenie, nawet jeśli rzeczywiste dane nie są dokładnie zgodne z tym rozkładem? (Rzeczywiste dane często zawierają „gruby ogon”, tzn. Wartości dalekie od średniej są znacznie częstsze, niż można by oczekiwać na podstawie rozkładu normalnego).
Innymi słowy, co jest specjalnego w normalnym rozkładzie?
Normalna ma wiele „ładnych” właściwości statystycznych (patrz np. Https://en.wikipedia.org/wiki/Central_limit_theorem ), ale najbardziej odpowiedni IMO to fakt, że jest to funkcja „maksymalnej entropii” dla dowolnej dystrybucji z dany środek i wariancja. https://en.wikipedia.org/wiki/Maximum_entropy_probability_distribution
Aby wyrazić to w zwykłym języku, jeśli otrzymasz tylko średnią (punkt środkowy) i wariancję (szerokość) rozkładu i nie zakładasz nic więcej o tym, będziesz zmuszony narysować rozkład normalny. Wszystko inne wymaga dodatkowych informacji (w sensie teorii informacji Shannona ), na przykład skośności, aby je ustalić.
Zasada maksymalnej entropii została wprowadzona przez ET Jaynesa jako sposób na określenie rozsądnych priorytetów w wnioskowaniu bayesowskim i myślę, że jako pierwszy zwrócił uwagę na tę właściwość.
Zobacz to do dalszej dyskusji: http://www.inf.fu-berlin.de/inst/ag-ki/rojas_home/documents/tutorials/Gaussian-distribution.pdf
źródło
Rozkład normalny (znany również jako „ rozkład Gaussa ”) ma mocne podstawy matematyczne. Centralne twierdzenie graniczne mówi, że jeśli masz skończony zbiór n niezależnych i identycznie rozmieszczone zmiennych losowych o określonej średniej i wariancji, i wziąć średnią z tych zmiennych losowych, podział wyniku będą zbliżać się do rozkładu Gaussa jak n idzie w nieskończoność. Nie ma tutaj domysłów, ponieważ wyprowadzenie matematyczne prowadzi do tej konkretnej funkcji rozkładu i nie ma innej.
Aby wyrazić to bardziej konkretnie, rozważ pojedynczą zmienną losową, taką jak rzucie uczciwą monetą (2 równie możliwe wyniki). Szanse na uzyskanie określonego wyniku wynoszą 1/2 dla głów i 1/2 dla ogonów.
Jeśli zwiększysz liczbę monet i będziesz śledzić całkowitą liczbę głów zdobytych podczas każdej próby, otrzymasz Dystrybucję dwumianową , która ma z grubsza kształt dzwonu. Wystarczy wykreślić wykres z liczbą głowic wzdłuż osi X i liczbą odsunięć tylu głowic wzdłuż osi Y.
Im więcej monet zużyjesz i im więcej razy przewrócisz monety, tym bardziej wykres będzie wyglądał jak krzywa dzwonowa Gaussa. Tak twierdzi twierdzenie Central Limit.
Zadziwiające jest to, że twierdzenie nie zależy od tego, w jaki sposób zmienne losowe są faktycznie rozmieszczone, o ile każda z zmiennych losowych ma taki sam rozkład. Jednym z kluczowych założeń tego twierdzenia jest to, że dodajesz lub uśredniasz zmienne losowe. Inną kluczową koncepcją jest to, że twierdzenie opisuje matematyczną granicę, ponieważ liczba zmiennych losowych staje się coraz większa. Im więcej zmiennych użyjesz, tym bliższy będzie rozkład normalny.
Polecam wziąć udział w statystyce matematycznej, jeśli chcesz zobaczyć, w jaki sposób matematycy ustalili, że rozkład normalny jest właściwie matematycznie poprawną funkcją krzywej dzwonowej.
źródło
Istnieje kilka doskonałych odpowiedzi w tym temacie. Nie mogę się oprzeć wrażeniu, że OP nie zadał tego samego pytania, na które wszyscy chcą odpowiedzieć. Rozumiem jednak, ponieważ jest to jedno z najbardziej ekscytujących pytań, na które należy odpowiedzieć - tak naprawdę to znalazłem, ponieważ miałem nadzieję, że ktoś ma pytanie „Skąd wiemy, że normalny plik PDF jest plikiem PDF?” i szukałem tego. Myślę jednak, że odpowiedzią na to pytanie może być wykazanie źródła rozkładu normalnego.
Jeśli zrzucę teraz 100 monet na ziemię i policzę, ile głów dostanę, mógłbym policzyć 0 głów, lub mógłbym policzyć 100 głów, ale znacznie bardziej prawdopodobne jest, że policzę liczbę gdzieś pomiędzy. Czy rozumiesz, dlaczego ten histogram powinien mieć kształt dzwonu?
źródło
Wspomniałby również o wyprowadzeniu Maxwella-Herschela niezależnego wielowymiarowego rozkładu normalnego z dwóch założeń:
Obrót wektora nie wpływa na rozkład.
Składniki wektora są niezależne.
Oto ekspozycja Jaynesa
źródło