W mojej klasie różniczkowej napotkaliśmy funkcję lub „krzywą dzwonową” i powiedziano mi, że ma ona częste zastosowania w statystyce.
Z ciekawości chcę zapytać: Czy funkcja naprawdę ważna w statystyce? Jeśli tak, to co jest takiego w co czyni go użytecznym i jakie są niektóre z jego aplikacji?
Nie mogłem znaleźć wielu informacji na temat tej funkcji w Internecie, ale po przeprowadzeniu pewnych badań znalazłem związek między krzywymi dzwonowymi ogólnie i czymś zwanym rozkładem normalnym . Strona Wikipedia łączy te rodzaje funkcji aplikacji do statystyk z podkreślając przeze mnie, który stanowi:
„Rozkład normalny jest uważany za najbardziej znaczący rozkład prawdopodobieństwa w statystykach. Jest po temu kilka przyczyn: 1 Po pierwsze, rozkład normalny wynika z centralnego twierdzenia granicznego, które stwierdza, że w łagodnych warunkach suma dużej liczby losowych zmiennych z tej samej dystrybucji jest dystrybuowany w przybliżeniu normalnie, niezależnie od formy pierwotnej dystrybucji . ”
Tak więc, jeśli zgromadzę dużą ilość danych z jakiejś ankiety lub podobnej, można by je równo rozdzielić między funkcje takie jak ? Funkcja jest symetryczna, podobnie jak jej symetria, tj. Jej przydatność do rozkładu normalnego, co czyni ją tak przydatną w statystyce? Ja tylko spekuluję.
Co ogólnie sprawia, że przydatny w statystykach? Jeśli rozkład normalny jest jedynym obszarem, to co czyni unikalnym lub szczególnie przydatnym wśród innych funkcji typu gaussowskiego w rozkładzie normalnym? e - x 2
źródło
Odpowiedzi:
Powodem, dla którego ta funkcja jest ważna, jest rzeczywiście rozkład normalny i jego ściśle powiązany towarzysz, centralne twierdzenie o granicy (mamy kilka dobrych wyjaśnień CLT w innych pytaniach tutaj).
W statystykach CLT można zazwyczaj wykorzystać do obliczenia prawdopodobieństw w przybliżeniu, czyniąc stwierdzenia typu „jesteśmy w 95% pewni, że ...” możliwe (znaczenie „95% pewności” jest często źle rozumiane, ale to inna sprawa).
Funkcja jest (w wersji skalowanej) funkcją gęstości rozkładu normalnego. Jeśli wielkość losową można modelować przy użyciu rozkładu normalnego, funkcja ta opisuje, jak prawdopodobne są różne możliwe wartości tej wielkości. Wyniki w regionach o dużej gęstości są bardziej prawdopodobne niż wyniki w regionach o niskiej gęstości.exp(−(x−μ)22σ2)
i σ są parametrami określającymi położenie i skalę funkcji gęstości. Jest symetryczny względem μ , więc zmiana μ oznacza przesunięcie funkcji w prawo lub w lewo. σ określa wartość funkcji gęstości na jej maksymalnym poziomie ( x = μ ) i to, jak szybko spada do 0, gdy x odsuwa się od μ . W tym sensie zmiana σ zmienia skalę funkcji.μ σ μ μ σ x=μ x μ σ
Dla konkretnego wyboru i σ = 1 / √μ=0 gęstość jest (proporcjonalna do)e - x 2 . Nie jest to szczególnie interesujący wybór tych parametrów, ale ma tę zaletę, że daje funkcję gęstości, która wygląda nieco prostiej niż wszystkie inne.σ=1/2–√ e−x2
Z drugiej strony możemy przejść od do dowolnej innej gęstości normalnej przez zmianę zmiennych x = u - μe−x2 . Powód, dla którego twój podręcznik mówi, żee-x2, a nieexp(-(x-μ)2x=u−μ2√σ e−x2 , jest bardzo ważną funkcją, ponieważe-x2jest łatwiejszy do napisania.exp(−(x−μ)22σ2) e−x2
źródło
Masz rację, rozkład normalny lub gaussowski jest skalowanym i przesuniętym , więc znaczenie exp ( - x 2 ) wynika głównie z faktu, że jest to zasadniczo rozkład normalny.exp( - x2)) exp( - x2))
A rozkład normalny jest ważny głównie dlatego, że („w łagodnych warunkach regularności”) suma wielu niezależnych i identycznie rozmieszczonych zmiennych losowych zbliża się do normy, gdy „wiele” zbliża się do nieskończoności.
Nie wszystko jest zwykle dystrybuowane. Na przykład wyniki ankiety mogą nie być, przynajmniej jeśli odpowiedzi nie są nawet w ciągłej skali, ale coś w rodzaju liczb całkowitych 1–5. Ale średnia wyników jest zwykle rozkładana na wielokrotne próbkowanie, ponieważ średnia jest tylko skalowaną (znormalizowaną) sumą, a poszczególne odpowiedzi są od siebie niezależne. Zakładając, że próbka jest wystarczająco duża, ponieważ ściśle mówiąc, normalność pojawia się tylko wtedy, gdy wielkość próbki staje się nieskończona.
Jak widać z przykładu, rozkład normalny może pojawić się w wyniku procesu szacowania lub modelowania, nawet jeśli dane nie są normalnie dystrybuowane. Dlatego normalne rozkłady są wszędzie w statystykach. W statystyce bayesowskiej wiele późniejszych rozkładów parametrów jest w przybliżeniu normalnych lub można je przyjąć.
źródło
źródło