Myślę, że to fascynujący temat i nie do końca go rozumiem. Jakie prawo fizyki sprawia, że tak wiele zjawisk naturalnych ma rozkład normalny? Wydaje się bardziej intuicyjne, że mieliby jednolity rozkład.
Tak trudno mi to zrozumieć i czuję, że brakuje mi niektórych informacji. Czy ktoś może mi pomóc z dobrym wyjaśnieniem lub link do książki / wideo / artykułu?
Odpowiedzi:
Zacznę od zaprzeczenia tej przesłance. Robert Geary prawdopodobnie nie przesadził z przypadkiem, gdy powiedział (w 1947 r.) „ ... normalność to mit; nigdy nie było i nigdy nie będzie normalnego rozkładu. ” -
normalny rozkład jest modelem *, przybliżenie, które czasami jest mniej lub bardziej przydatne.
To, że niektóre zjawiska są w przybliżeniu normalne, może nie być wielką niespodzianką, ponieważ sumy niezależnych [lub nawet niezbyt silnie skorelowanych efektów] powinny, jeśli jest ich dużo i żadne nie ma wariancji, która jest znacząca w porównaniu z wariancją suma reszty, którą możemy zobaczyć, rozkład wydaje się wyglądać bardziej normalnie.
Twierdzenie o granicy centralnej (które dotyczy konwergencji do rozkładu normalnego średniej znormalizowanej próbki, gdy idzie w nieskończoność w pewnych łagodnych warunkach) przynajmniej sugeruje, że możemy dostrzec tendencję do tej normalności przy wystarczająco dużych, ale skończonych rozmiarach próby.n
Oczywiście, jeśli znormalizowane środki są w przybliżeniu normalne, znormalizowane kwoty będą; to jest powód rozumowania „suma wielu efektów”. Więc jeśli jest wiele niewielkich wkładów w tę odmianę i nie są one ściśle skorelowane, możesz to zobaczyć.
Twierdzenie Berry'ego-Esseena daje nam stwierdzenie na ten temat (zbieżność w kierunku rozkładów normalnych), które faktycznie dzieje się ze znormalizowanymi próbkami dla danych iid (w nieco bardziej rygorystycznych warunkach niż dla CLT, ponieważ wymaga to, aby trzeci moment absolutny był skończony), a także informowanie nas o tym, jak szybko to się dzieje. Kolejne wersje twierdzenia dotyczą nieidentycznie rozłożonych składników sumy , choć górne granice odchylenia od normalności są mniej ścisłe.
Mniej formalnie zachowanie zwojów o dość dobrych rozkładach daje nam dodatkowe (choć ściśle powiązane) powody, by podejrzewać, że w wielu przypadkach może to być dość dobre przybliżenie w skończonych próbkach. Konwolucja działa jak rodzaj „rozmazywania” operatora, z którym ludzie, którzy używają oszacowania gęstości jądra w różnych jądrach, będą zaznajomieni; po ustandaryzowaniu wyniku (więc wariancja pozostaje stała za każdym razem, gdy wykonujesz taką operację), następuje wyraźny postęp w kierunku coraz bardziej symetrycznych kształtów wzgórz, gdy wielokrotnie wygładzasz (i nie ma to większego znaczenia, jeśli zmieniasz jądro za każdym razem).
Terry Tao daje pewną miłą dyskusję wersjach centralnego twierdzenia granicznego oraz Twierdzenie Berry-Essena tutaj , a po drodze wspomina podejście do non-niezależną wersją Berry-Esseen.
Jest więc co najmniej jedna klasa sytuacji, w których możemy się tego spodziewać, i formalne powody, by sądzić, że tak naprawdę zdarzy się w takich sytuacjach. Jednak w najlepszym razie poczucie, że wynik „sum wielu efektów” będzie normalny, jest przybliżeniem. W wielu przypadkach jest to dość rozsądne przybliżenie (aw dodatkowych przypadkach, chociaż przybliżenie rozkładu nie jest bliskie, niektóre procedury zakładające normalność nie są szczególnie wrażliwe na rozkład poszczególnych wartości, przynajmniej w dużych próbkach).
Istnieje wiele innych okoliczności, w których efekty nie „dodają”, i możemy spodziewać się innych rzeczy; na przykład w przypadku wielu danych finansowych efekty są zwykle zwielokrotnione (efekty będą przenosić kwoty wyrażone w procentach, takie jak na przykład odsetki i inflacja oraz kursy wymiany). Tam nie oczekujemy normalności, ale czasami możemy zaobserwować przybliżone zbliżenie do normalności w skali logarytmicznej. W innych sytuacjach żadne z nich nie może być odpowiednie, nawet w surowym znaczeniu. Na przykład czasy między zdarzeniami zasadniczo nie będą dobrze przybliżone ani przez normalność, ani przez normalność logów; nie ma tutaj „sum” ani „produktów” efektów, o które można by się kłócić. Istnieje wiele innych zjawisk, które możemy argumentować za konkretnym rodzajem „prawa” w określonych okolicznościach.
źródło
Jest takie słynne powiedzenie Gabriela Lippmanna (fizyka, laureata Nagrody Nobla), jak powiedział Poincaré:
Wygląda na to, że nie mamy tego cytatu w wątku Lista cytatów statystycznych, dlatego pomyślałem, że dobrze byłoby go tutaj opublikować.
źródło
Rozkład normalny jest powszechnym miejscem w naukach przyrodniczych. Zwykłe wyjaśnienie, dlaczego dzieje się to w błędach pomiarowych, wynika z pewnej formy rozumowania dużych liczb lub centralnego twierdzenia granicznego (CLT), która zwykle wygląda tak: „ponieważ na wyniki eksperymentu wpływa nieskończenie duża liczba zaburzeń pochodzących z niepowiązanych źródeł CLT sugeruje, że błędy byłyby zwykle dystrybuowane ". Oto na przykład fragment Metod statystycznych w analizie danych autorstwa WJ Metzgera:
Jednak, jak musicie wiedzieć, nie oznacza to oczywiście, że każda dystrybucja będzie normalna. Na przykład rozkład Poissona jest tak samo powszechny w fizyce, gdy mamy do czynienia z procesami zliczania. W spektroskopii rozkład Cauchy'ego (znany również jako Breit Wigner) służy do opisu kształtu widm promieniowania i tak dalej.
Zrozumiałem to po napisaniu: wszystkie trzy wspomniane dotychczas rozkłady (Gaussa, Poissona, Cauchy'ego) są rozkładami stabilnymi , a Poisson jest stabilny dyskretnie . Teraz, gdy o tym pomyślałem, wydaje się, że jest to ważna cecha rozkładu, który pozwoli przetrwać agregacji: jeśli dodasz kilka liczb z Poissona, suma jest Poissonem. To może „wyjaśnić” (w pewnym sensie), dlaczego jest tak wszechobecne.
W naukach nienaturalnych musisz być bardzo ostrożny z zastosowaniem normalnego (lub innego) rozkładu z różnych powodów. Problemem są zwłaszcza korelacje i zależności, ponieważ mogą one złamać założenia CLT. Na przykład w finansach dobrze wiadomo, że wiele serii wygląda normalnie, ale mają znacznie cięższe ogony , co jest dużym problemem w zarządzaniu ryzykiem.
Wreszcie, w naukach przyrodniczych istnieją bardziej solidne powody dla normalnego rozkładu niż rodzaj rozumowania „machania ręką”, o którym wspominałem wcześniej. Rozważmy ruch Browna. Jeśli szoki są naprawdę niezależne i nieskończenie małe, to nieuchronnie rozkład obserwowalnej ścieżki będzie miał rozkład normalny dzięki CLT, patrz np. Równanie (10) w słynnej pracy Einsteina „ DOCHODZENIA NA TEMAT TEORII RUCHU BRĄZOWEGO ”. Nawet nie zadał sobie trudu, by nazwać to swoją dzisiejszą nazwą „Gaussian” lub „normal”.
Dlatego nie dziw się, że otrzymujesz bardzo różne reakcje na wykorzystanie rozkładu Gaussa od badaczy z różnych dziedzin. W niektórych dziedzinach, takich jak fizyka, oczekuje się, że pewne zjawiska będą naturalnie powiązane z rozkładem Gaussa w oparciu o bardzo solidną teorię popartą ogromną ilością obserwacji. W innych dziedzinach rozkład normalny stosuje się ze względu na jego wygodę techniczną, przydatne właściwości matematyczne lub z innych wątpliwych powodów.
źródło
jest tu strasznie dużo zbyt skomplikowanych wyjaśnień ...
Dobry sposób, w jaki mnie to dotyczyło, jest następujący:
Rzuć pojedynczą kością, a masz równe prawdopodobieństwo rzutu każdą liczbą (1-6), a zatem PDF jest stały.
Rzuć dwiema kostkami i zsumuj wyniki razem, a PDF nie będzie już stały. Jest tak, ponieważ istnieje 36 kombinacji, a sumaryczny zakres wynosi od 2 do 12. Prawdopodobieństwo 2 jest unikalną pojedynczą kombinacją 1 + 1. Prawdopodobieństwo 12 jest również wyjątkowe, ponieważ może wystąpić tylko w pojedynczej kombinacji 6 + 6. Teraz, patrząc na 7, istnieje wiele kombinacji, tj. 3 + 4, 5 + 2 i 6 + 1 ( i ich odwrotne permutacje). Kiedy pracujesz od wartości średniej (tj. 7), istnieje mniej kombinacji dla 6 i 8 itd., Aż dojdziesz do pojedynczych kombinacji 2 i 12. Ten przykład nie daje wyraźnego rozkładu normalnego, ale im więcej umiera dodajesz, a im więcej próbek pobierzesz, wynik będzie dążył do normalnego rozkładu.
Dlatego, jeśli zsumujesz zakres zmiennych niezależnych podlegających zmienności losowej (z których każda może mieć własne pliki PDF), tym bardziej wynikowy wynik będzie miał tendencję do normalności. To w kategoriach Six Sigma daje nam to, co nazywamy „głosem procesu”. To właśnie nazywamy wynikiem „zmienności wspólnej przyczyny” systemu, a zatem, jeśli wyniki zmierzają w kierunku normalności, wówczas nazywamy ten system „statystyczną kontrolą procesu”. Jeśli sygnał wyjściowy jest nienormalny (przekrzywiony lub przesunięty), mówimy, że system podlega „specjalnej zmianie przyczyn”, w której pojawił się „sygnał”, który w pewien sposób wpłynął na wynik.
Mam nadzieję, że to pomaga.
źródło
Brak pomysłu. Z drugiej strony nie mam też pojęcia, czy to prawda, czy też co to znaczy „tak wielu”.
Jednak nieco przestawiając problem, istnieje dobry powód, aby zakładać (to znaczy modelować ) ciągłą wielkość, która według ciebie ma ustaloną średnią i wariancję z rozkładem normalnym. Jest tak, ponieważ rozkład normalny jest wynikiem maksymalizacji entropii z zastrzeżeniem tych ograniczeń momentu. Ponieważ, z grubsza mówiąc, entropia jest miarą niepewności, co sprawia, że Normalna jest najbardziej nieobrzędowym lub maksymalnie niepewnym wyborem formy dystrybucji.
Pomysł, że należy wybrać rozkład, maksymalizując jego entropię z zastrzeżeniem znanych ograniczeń, naprawdę ma pewne podstawy fizyki pod względem liczby możliwych sposobów ich spełnienia. Jaynes na temat mechaniki statystycznej jest tutaj standardowym odniesieniem.
Należy zauważyć, że chociaż maksymalna entropia motywuje rozkłady normalne w tym przypadku, można wykazać różne rodzaje ograniczeń prowadzących do różnych rodzin dystrybucyjnych, np. Znajomy wykładniczy, poissonowy, dwumianowy itp.
Sivia and Skilling 2005 ch.5 ma intuicyjną dyskusję.
źródło