Bardzo mało wiem na temat prawdopodobieństwa i statystyki i chcę się uczyć. Widzę słowo „dystrybucja” używane wszędzie w różnych kontekstach.
Na przykład dyskretna zmienna losowa ma „rozkład prawdopodobieństwa”. Wiem co to jest. Ciągła zmienna losowa ma funkcję gęstości prawdopodobieństwa, a zatem dla całka od do funkcji gęstości prawdopodobieństwa jest funkcją rozkładu skumulowanego obliczoną przy .
I najwyraźniej tylko „funkcja dystrybucji” jest synonimem „skumulowanej funkcji dystrybucji”, przynajmniej w przypadku ciągłych zmiennych losowych (pytanie: czy zawsze są one synonimami?).
Istnieje wiele znanych dystrybucji. dystrybucja dystrybucja itp. Ale czym dokładnie jest dystrybucja? Czy jest to funkcja rozkładu skumulowanego zmiennej losowej ? Czy funkcja gęstości prawdopodobieństwa zmiennej losowej ?
Ale wtedy rozkład częstotliwości skończonego zestawu danych wydaje się być histogramem.
Krótko mówiąc: w definicji prawdopodobieństwa i statystyki, jaka jest definicja słowa „dystrybucja”?
Znam definicję rozkładu w matematyce (element podwójnej przestrzeni zbioru funkcji testowych wyposażonych w topologię granic indukcyjnych), ale nie prawdopodobieństwo i statystyki.
źródło
Odpowiedzi:
Dodaje się dla o wartości losowych zmiennych. Rozszerzenie na inne spacje jest proste, jeśli jesteś zainteresowany. Twierdziłbym, że poniższa nieco bardziej ogólna definicja jest bardziej intuicyjna niż osobno, biorąc pod uwagę funkcje gęstości, masy i skumulowanego rozkładu.R -
W tekście zamieszczam pewne matematyczne / probabilistyczne terminy, aby były poprawne. Jeśli ktoś nie zna tych terminów, intuicja jest równie dobrze rozumiana przez samo myślenie o „zestawach Borela” jak o „dowolnym podzbiorze którym mogę myśleć”, a o zmiennej losowej wynik liczbowy jakiegoś eksperymentu z powiązane prawdopodobieństwo.R
Niech jest przestrzenią prawdopodobieństwa i X ( ω ) R - o wartości zmiennej losowej w tej przestrzeni.( Ω , F, P) X( ω ) R -
Funkcja zestaw , gdzie jest zestaw Borel, nazywa rozkład X .Q ( A ) : = P( ω ∈ Ω : X( ω ) ∈ A ) A X
Innymi słowy, rozkład mówi ci (luźno mówiąc), że dla dowolnego podzbioru prawdopodobieństwo X przyjmuje wartość w tym zbiorze. Można udowodnić, że Q jest całkowicie określone przez funkcję F ( x ) : = P ( X ≤ x ) i odwrotnie. Aby to zrobić - pomijając tutaj szczegóły - skonstruuj miarę na zestawach Borela, która przypisuje prawdopodobieństwo F ( x ) do wszystkich zbiorów ( - ∞ , x ) i argumentuje, że ta skończona miara zgadza się z Q naR X Q F(x):=P(X≤x) F(x) (−∞,x) Q system generujący borel σ - algebrę.π− σ−
Jeśli tak się stanie, że można zapisać jako Q ( A ) = ∫ A f ( x ) d x, to f jest funkcją gęstości dla Q i widać, chociaż gęstość ta nie jest jednoznacznie określona (rozważ zmiany na zestawy miary Lebesgue'a zero), to ma sens również mówić o f jako dystrybucji X . Zwykle jednak, nazywamy to funkcja gęstości prawdopodobieństwa X .Q(A) Q(A)=∫Af(x)dx f Q f X X
Podobnie, jeśli zdarza się, że można zapisać jako Q ( A ) = ∑ i ∈ A ∩ { … , - 1 , 0 , 1 , … } f ( i ) , wówczas sens ma mówienie o f jako rozkład X, chociaż zwykle nazywamy to funkcją masy prawdopodobieństwa.Q(A) Q(A)=∑i∈A∩{…,−1,0,1,…}f(i) f X
Tak więc, za każdym razem, gdy czytasz coś w rodzaju „ ma rozkład równomierny na [ 0 , 1 ] ”, oznacza to po prostu, że funkcja Q ( A ) , która mówi ci o prawdopodobieństwie, że X przyjmuje wartości w określonych zbiorach, charakteryzuje się funkcja gęstości prawdopodobieństwa f ( x ) = I [ 0 , 1 ] lub funkcja rozkładu skumulowanego F ( x ) = ∫ x - ∞ f ( t )X [0,1] Q(A) X f(x)=I[0,1] .F(x)=∫x−∞f(t)dt
Ostatnia uwaga na temat przypadku, w którym nie ma wzmianki o zmiennej losowej, a jedynie rozkład. Można udowodnić, że biorąc pod uwagę funkcję rozkładu (lub funkcję masy, gęstości lub skumulowanego rozkładu), istnieje przestrzeń prawdopodobieństwa ze zmienną losową o takim rozkładzie. Zatem zasadniczo nie ma różnicy w mówieniu o rozkładzie lub o zmiennej losowej o tym rozkładzie. To tylko kwestia koncentracji.
źródło
Niech będzie przestrzenią prawdopodobieństwa, niech ( X , B ) będzie przestrzenią mierzalną i niech X : Ω → X będzie funkcją mierzalną, co oznacza, że X - 1 ( B ) = { ω : X ( ω ) ∈ B } ∈ K dla każdego B ∈ B . Rozkład X jest miarą prawdopodobieństwa μ(Ω,F,P) (X,B) X:Ω→X X−1(B)={ω:X(ω)∈B}∈F B∈B X μX over (X,B) defined by μX(B)=P(X∈B) . When X=R and B is the Borel sigma-field, we refer to the function X as a random "variable".
źródło
The question and answers so far seem to have focused on theoretical distributions. Empirical distributions provide a more intuitive understanding of distributions.
An ostensive definition for an observed distribution is the frequency of occurrences for each observed value of a variable.
Następnie w statystyce wnioskowania staramy się dopasować rozkłady teoretyczne do obserwowanych rozkładów, ponieważ chcielibyśmy pracować z założeniami rozkładów teoretycznych. Możesz uzyskać podobną definicję rozkładów teoretycznych, zastępując „obserwowany” słowem „obserwowalny”, a ściślej: „oczekiwany”.
źródło