Czym dokładnie jest dystrybucja?

16

Bardzo mało wiem na temat prawdopodobieństwa i statystyki i chcę się uczyć. Widzę słowo „dystrybucja” używane wszędzie w różnych kontekstach.

Na przykład dyskretna zmienna losowa ma „rozkład prawdopodobieństwa”. Wiem co to jest. Ciągła zmienna losowa ma funkcję gęstości prawdopodobieństwa, a zatem dla xR całka od do x funkcji gęstości prawdopodobieństwa jest funkcją rozkładu skumulowanego obliczoną przy x .

I najwyraźniej tylko „funkcja dystrybucji” jest synonimem „skumulowanej funkcji dystrybucji”, przynajmniej w przypadku ciągłych zmiennych losowych (pytanie: czy zawsze są one synonimami?).

Istnieje wiele znanych dystrybucji. Γ dystrybucja χ2 dystrybucja itp. Ale czym dokładnie jest Γ dystrybucja? Czy jest to funkcja rozkładu skumulowanego zmiennej losowej Γ ? Czy funkcja gęstości prawdopodobieństwa zmiennej losowej Γ ?

Ale wtedy rozkład częstotliwości skończonego zestawu danych wydaje się być histogramem.

Krótko mówiąc: w definicji prawdopodobieństwa i statystyki, jaka jest definicja słowa „dystrybucja”?

Znam definicję rozkładu w matematyce (element podwójnej przestrzeni zbioru funkcji testowych wyposażonych w topologię granic indukcyjnych), ale nie prawdopodobieństwo i statystyki.

danzibr
źródło
1
Odpowiedni artykuł w Wikipedii wydaje się być dobrym wprowadzeniem do tematu.
Aleksandr Blekh
1
Ściśle mówiąc, „dystrybucja” i „cdf” powinny być traktowane jako synonimy, ale „dystrybucja” jest często używana w znacznie luźniejszym znaczeniu i często jest używana w odniesieniu do gęstości / pmf.
Glen_b
3
Twoje rozumienie rozkładu jest bardzo zbliżone do rozkładu; główna różnica polega na tym, że osoby z prawdopodobieństwem cieszą się pewnymi dodatkowymi właściwościami (bycia pozytywnymi i znormalizowanymi do jedności). Połączenie polega na tym, że twoja definicja ustanawia rozkład pod względem powiązanego operatora oczekiwania. Występuje również (poważne) nadużywanie języka rozpowszechnionego w statystykach, co również nazywa sparametryzowaną rodzinę dystrybucji „dystrybucją”. Wreszcie każdy skończony zestaw danych określa rozkład uzyskany przez próbkowanie z niego, jego „rozkład empiryczny”.
whuber
@whuber To pomaga, zwłaszcza dzięki nadużyciom językowym. To byłoby jak wywołanie nieokreślonej całki funkcji ... funkcji.
danzibr
Podobne pytanie z dobrymi odpowiedziami: stats.stackexchange.com/questions/210403/…
kjetil b halvorsen

Odpowiedzi:

7

Dodaje się dla o wartości losowych zmiennych. Rozszerzenie na inne spacje jest proste, jeśli jesteś zainteresowany. Twierdziłbym, że poniższa nieco bardziej ogólna definicja jest bardziej intuicyjna niż osobno, biorąc pod uwagę funkcje gęstości, masy i skumulowanego rozkładu.R-

W tekście zamieszczam pewne matematyczne / probabilistyczne terminy, aby były poprawne. Jeśli ktoś nie zna tych terminów, intuicja jest równie dobrze rozumiana przez samo myślenie o „zestawach Borela” jak o „dowolnym podzbiorze którym mogę myśleć”, a o zmiennej losowej wynik liczbowy jakiegoś eksperymentu z powiązane prawdopodobieństwo.R


Niech jest przestrzenią prawdopodobieństwa i X ( ω ) R - o wartości zmiennej losowej w tej przestrzeni.(Ω,fa,P.)X(ω)R-

Funkcja zestaw , gdzie jest zestaw Borel, nazywa rozkład X .Q(ZA): =P.(ωΩ:X(ω)A)AX

Innymi słowy, rozkład mówi ci (luźno mówiąc), że dla dowolnego podzbioru prawdopodobieństwo X przyjmuje wartość w tym zbiorze. Można udowodnić, że Q jest całkowicie określone przez funkcję F ( x ) : = P ( X x ) i odwrotnie. Aby to zrobić - pomijając tutaj szczegóły - skonstruuj miarę na zestawach Borela, która przypisuje prawdopodobieństwo F ( x ) do wszystkich zbiorów ( - , x ) i argumentuje, że ta skończona miara zgadza się z Q naRXQF(x):=P(Xx)F(x)(,x)Q system generujący borel σ - algebrę.πσ

Jeśli tak się stanie, że można zapisać jako Q ( A ) = A f ( x ) d x, to f jest funkcją gęstości dla Q i widać, chociaż gęstość ta nie jest jednoznacznie określona (rozważ zmiany na zestawy miary Lebesgue'a zero), to ma sens również mówić o f jako dystrybucji X . Zwykle jednak, nazywamy to funkcja gęstości prawdopodobieństwa X .Q(A)Q(A)=Af(x)dxfQfXX

Podobnie, jeśli zdarza się, że można zapisać jako Q ( A ) = i A { , - 1 , 0 , 1 , } f ( i ) , wówczas sens ma mówienie o f jako rozkład X, chociaż zwykle nazywamy to funkcją masy prawdopodobieństwa.Q(A)Q(A)=iA{,1,0,1,}f(i)fX

Tak więc, za każdym razem, gdy czytasz coś w rodzaju „ ma rozkład równomierny na [ 0 , 1 ] ”, oznacza to po prostu, że funkcja Q ( A ) , która mówi ci o prawdopodobieństwie, że X przyjmuje wartości w określonych zbiorach, charakteryzuje się funkcja gęstości prawdopodobieństwa f ( x ) = I [ 0 , 1 ] lub funkcja rozkładu skumulowanego F ( x ) = x - f ( t )X[0,1]Q(A)Xf(x)=I[0,1] .F(x)=xf(t)dt

Ostatnia uwaga na temat przypadku, w którym nie ma wzmianki o zmiennej losowej, a jedynie rozkład. Można udowodnić, że biorąc pod uwagę funkcję rozkładu (lub funkcję masy, gęstości lub skumulowanego rozkładu), istnieje przestrzeń prawdopodobieństwa ze zmienną losową o takim rozkładzie. Zatem zasadniczo nie ma różnicy w mówieniu o rozkładzie lub o zmiennej losowej o tym rozkładzie. To tylko kwestia koncentracji.

ekvall
źródło
3

Niech będzie przestrzenią prawdopodobieństwa, niech ( X , B ) będzie przestrzenią mierzalną i niech X : Ω X będzie funkcją mierzalną, co oznacza, że X - 1 ( B ) = { ω : X ( ω ) B } K dla każdego B B . Rozkład X jest miarą prawdopodobieństwa μ(Ω,F,P)(X,B)X:ΩXX1(B)={ω:X(ω)B}FBB XμX over (X,B) defined by μX(B)=P(XB). When X=R and B is the Borel sigma-field, we refer to the function X as a random "variable".

Zen
źródło
1
must be very clear to people with little knowledge of probability and statistics :)
Alexey Grigorev
3
Well, the OP seems to know advanced math stuff such as "element of the dual space of the collection of test functions equipped with the inductive limit topology". Check the end of his question.
Zen
2
It was indeed a good response for me. I needed to check the definition of a probability space, but for a person with a math background, it was clear. I appreciated the answer's concision, only not accepting it due to the detail in the other answer.
danzibr
1

The question and answers so far seem to have focused on theoretical distributions. Empirical distributions provide a more intuitive understanding of distributions.

Example

During a class tournament in skipping rope we observe all the kids in a class skipping rope. The first kid is able to jump twice, the second four times, the next one fifteen times, etc. We record the number of jumps. Five of the kids jumped eight times each, but only one of the kids jumped twice. We say that jumping eight times is differently distributed than jumping twice.

An ostensive definition for an observed distribution is the frequency of occurrences for each observed value of a variable.

Następnie w statystyce wnioskowania staramy się dopasować rozkłady teoretyczne do obserwowanych rozkładów, ponieważ chcielibyśmy pracować z założeniami rozkładów teoretycznych. Możesz uzyskać podobną definicję rozkładów teoretycznych, zastępując „obserwowany” słowem „obserwowalny”, a ściślej: „oczekiwany”.

noumenal
źródło