Czy teoria prawdopodobieństwa jest badaniem funkcji nieujemnych, które całkują się / sumują do jednej?

26

Jest to prawdopodobnie głupie pytanie, ale czy teoria prawdopodobieństwa jest badaniem funkcji, które integrują / sumują się z jedną?

EDYTOWAĆ. Zapomniałem o braku negatywności. Czy więc teoria prawdopodobieństwa jest badaniem funkcji nieujemnych, które całkują się / sumują do jednej?

dontloo
źródło
Tak, prawdopodobieństwa zawsze sumują się do jednego. Z drugiej strony prawdopodobieństwa nie mają tego ograniczenia.
Mike Hunter
2
Jedyną rozsądną odpowiedzią na zadane pytanie jest nie, nie tylko dlatego, że istnieje wiele funkcji które integrują się z 1, ale dla których nie może reprezentować prawdopodobieństw dla niektórych i . Rozważmy na przykład funkcję 1,5 między 0 a 1 i -0,5 między 1 a 2, a 0 wszędzie indziej. (ale jest również prawdopodobnie „nie” również z innych powodów)b a f ( u ) d u a bfabf(u)duab
Glen_b
2
Powiązane: stats.stackexchange.com/questions/214485/...
Ilmari Karonen
1
Istnieją poważne prace na temat prawdopodobieństwa ujemnego, np. Maurice S. Bartlett. doi.org/10.1017/S0305004100022398
Nick Cox
2
@dontloo, do czego dążyłem, jest teraz całkiem dobrze ujęte w cytacie Tao w odpowiedzi Chaconne.
Glen_b

Odpowiedzi:

31

Na poziomie czysto formalnym można by nazwać teorię prawdopodobieństwa badaniem przestrzeni miar z całkowitą miarą 1, ale to byłoby jak nazywanie teorii liczb badaniem ciągów cyfr, które kończą się

- z tematów Terry'ego Tao w teorii macierzy losowych .

Myślę, że to jest naprawdę podstawowa rzecz. Jeśli mamy przestrzeń prawdopodobieństwa i zmienną losową X : Ω R z miarą przesunięcia do przodu P X : = P X - 1 , to przyczyną jest gęstość f = d P X(Ω,F,P)X:ΩRPX:=PX1 całkuje się z jednym, ponieważP(Ω)=1. I to jest bardziej fundamentalne niż pdf w porównaniu z pmfs.f=dPXdμP(Ω)=1

Oto dowód:

Rfdμ=RdPX=PX(R)=P({ωΩ:X(ω)R})=P(Ω)=1.

Jest to prawie przeformułowanie odpowiedzi AdamO (+1), ponieważ wszystkie CDF są càdlàg, i istnieje jeden do jednego związek między zbiorem CDF na i zbiorem wszystkich miar prawdopodobieństwa na ( R , B ) , ale od CDF RV jest zdefiniowany w kategoriach jego dystrybucji, postrzegam przestrzenie prawdopodobieństwa jako miejsce „rozpoczęcia” z tego rodzaju przedsięwzięciem.R(R,B)


Aktualizuję, aby rozwinąć kwestię zgodności między CDF i miarami prawdopodobieństwa oraz tego, w jaki sposób obie są rozsądnymi odpowiedziami na to pytanie.

Zaczynamy od dwóch miar prawdopodobieństwa i analizy odpowiadających CDF. Kończymy, zaczynając od CDF i patrząc na środek przez niego wywołany.

Niech i R będą miarami prawdopodobieństwa na ( R , B ) i niech F Q i F R będą ich odpowiednimi CDF (tj. F Q ( a ) = Q ( ( - , a ] ) i podobnie dla R ). Q i R oba będą reprezentowały wyprzedzające miary zmiennych losowych (tj. rozkładów), ale tak naprawdę nie ma znaczenia skąd one pochodzą.QR(R,B)FQFRFQ(a)=Q((,a])RQR

Kluczowa idea jest taka: jeśli i R zgadzają się na wystarczająco bogatą kolekcję zbiorów, to zgadzają się co do σ -algebry generowanej przez te zbiory. Intuicyjnie, jeśli mamy dobrze zachowaną kolekcję wydarzeń, które poprzez policzalną liczbę dopełnień, skrzyżowań i związków tworzą wszystkie B , to uzgodnienie wszystkich tych zestawów nie pozostawia miejsca na wahania w odniesieniu do dowolnego zestawu Borela.QRσB

Sformalizujmy to. Niech i niech L = { A R : Q ( A ) = R ( A ) } , tj. L jest podzbiorem P ( R ), na którym Q i R agree (i są zdefiniowane). Pamiętaj, że pozwalamy im się zgadzać na zestawy inne niż Borel, ponieważ L zgodnie z definicją niekoniecznie jest podzbioremS={(,a]:aR}L={AR:Q(A)=R(A)}LP(R)QRL . Naszym celem jest pokazanie, że BL .BBL

Okazuje się, że ( σ -algebra generowana przez S ) jest w rzeczywistości B , więc mamy nadzieję, że S jest wystarczająco dużym zbiorem zdarzeń, że jeśli Q = R wszędzie na S, to są one zmuszone do równości na wszystkich pensjonatów .σ(S)σSBSQ=RSB

Zauważ, że jest zamknięte pod skończonymi przecięciami, a L jest zamknięty pod dopełnieniami i policzalnymi rozłącznymi przecięciami (wynika to z σ -additivity). To oznacza, że S jest π -system i L jest λ -system . Przez Õ - λ twierdzenie to zatem, że Ď ( S ) = BL . Elementy SSLσSπLλπλσ(S)=BLSnigdzie nie są tak skomplikowane jak dowolny zestaw Borela, ale ponieważ każdy zestaw Borela może być utworzony z policzalnej liczby dopełnień, związków i przecięć elementów , jeśli nie ma pojedynczej niezgodności między Q i R w odniesieniu do elementów S wówczas będzie stosowana aż do istnienia żadnych rozbieżności na dowolnym B B .SQRSBB

Właśnie pokazaliśmy, że jeśli to Q = R (na B ), co oznacza, że ​​mapa Q F Q od P : = { P : P  jest miarą prawdopodobieństwa na  ( R , B ) } do F : = { F : RR : F  to CDF } to zastrzyk.FQ=FRQ=RBQFQP:={P:P is a probability measure on (R,B)}F:={F:RR:F is a CDF}

Teraz, jeśli chcemy pomyśleć o pójściu w innym kierunku, chcemy zacząć od CDF i pokazać, że istnieje unikalna miara prawdopodobieństwa Q, taka, że F ( a ) = Q ( ( - , a ] ) . że nasze mapowanie Q F Q jest w rzeczywistości bijectionem . W tym kierunku definiujemy F bez odniesienia do prawdopodobieństwa lub miar.FQF(a)=Q((,a])QFQF

Najpierw definiujemy funkcję miary Stieltjesa jako funkcję taką, żeG:RR

  1. nie malejeG
  2. jest ciągłe w prawoG

(i zwróćmy uwagę na to, jak bycie càdlàg wynika z tej definicji, ale z powodu dodatkowego, nie zmniejszającego się ograniczenia, „większość” funkcji càdlàg nie jest funkcjami miar Stieltjesa).

It can be shown that each Stieltjes function G induces a unique measure μ on (R,B) defined by

μ((a,b])=G(b)G(a)
(see e.g. Durrett's Probability and Random Processes for details on this). For example, the Lebesgue measure is induced by G(x)=x.

Teraz zauważając, że CDF jest funkcją Stieltjesa z dodatkowymi właściwościami, które lim x - F ( x ) : = F ( - ) = 0 i lim x F ( x ) : = F ( ) = 1 , możemy zastosować ten wynik, aby pokazać, że dla każdego CDF F otrzymujemy unikalną miarę Q na ( R , B )FlimxF(x):=F()=0limxF(x):=F()=1FQ(R,B)zdefiniowane przez

Q((a,b])=F(b)F(a).

Zwróć uwagę, jak i Q ( ( - , - ] ) = F ( ) - F ( - ) = 1, więc Q jest miarą prawdopodobieństwa i jest dokładnie tą, której użylibyśmy do zdefiniowania F.Q((,a])=F(a)F()=F(a)Q((,])=F()F()=1QF gdybyśmy szli w innym kierunku.

Wszyscy razem mamy teraz widać, że odwzorowanie jest na 1-1 i tak naprawdę mają bijection między P i F . Przywołując to z powrotem do rzeczywistego pytania, pokazuje to, że moglibyśmy w równoważny sposób utrzymywać CDF lub miary prawdopodobieństwa jako nasz przedmiot, o którym deklarujemy prawdopodobieństwo badania (jednocześnie uznając, że jest to nieco żartobliwe przedsięwzięcie). Osobiście nadal wolę przestrzenie prawdopodobieństwa, ponieważ wydaje mi się, że teoria bardziej naturalnie płynie w tym kierunku, ale CDF nie są „złe”.QFQPF

jld
źródło
3
+1 for a broader perspective on the matter; You correctly note that Skorokhod's càdlàg function-space is only a present notion of what probability theory entails, radically different from Borel's, and Skorokhod's discoveries only date back ~40 years or so. Who knows what the next century may uncover?
AdamO
1
@AdamO absolutely, and there’s the weirder ones like non-Archimedean probability, where even if they never become the dominant view (and to my knowledge no one is seriously trying to do that) I find they help me to better understand the standard formulation (eg how serious of a thing sigma additivity is)
jld
I read the question title and thought of that quote from Terence Tao; must have read it years ago (2010) but it's really memorable. As he goes on to say, At a practical level, the opposite is true…
ShreevatsaR
See my comment on the question: How do alternative theories of probability, such as Bayesian (and Dempster-Shafer and the Transferable Belief Model and Dezert-Smarandache Theory), imprecise probabilities, plausibility theory, etc. relate to this question and discussion ?
E. Douglas Jensen
@E.DouglasJensen I'm not sure, i'm addressing this in terms of the standard Kolmogorov axioms so in that context I think my answer is "right", but if we're changing the axioms then I suppose all bets are off. Also i'm not being philosophical at all about this so if we're trying to connect this to the real world in any way, e.g. with questions like "what is the probability that the sun rises", then i'm sure it gets more complicated. Nevertheless, it seems a pretty safe bet that the probability that "anything" happens is the maximal value (probably 1) and that there's no uncertainty in that
jld
12

No; the Cantor distribution is just such a counterexample. It's a random variable, but it has no density. It has a distribution function, however. I would say, therefore, that probability theory is the study of càdlàg functions, inclusive of the Cantor DF, that have left limits of 0 and right limits of 1.

AdamO
źródło
Nice, I never heard of cadlag functions. However, these still assume a real and a metric space. Not all probability theory is done on such spaces.
HRSE
1
You may for example go back to Terrence Fine, Theories of Probability. Also note that cadlag functions (at least according to the wikipedia article) have the real numbers as a domain. LJ Savage's "Foundations of Statistics" gives an account of (subjective) probability theory on spaces that are not necessarily real.
HRSE
1
@jwg Some other comments in this post address negative probability, which seems to be of some use in quantum physics though my simple mind cannot fathom such a thing.
AdamO
1
@HRSE thanks for the references. I couldn't find either of them online but I skimmed some other papers by those authors although I didn't find any examples of this. If we're defining a random variable X as X:ΩRn then the CDF is defined in terms of the pushforward measure PX:=PX1 (not the measure P on (Ω,F)) and since X is real valued PX is necessarily a measure on (Rn,Bn) which means we can feed it sets like (,a] so F has Rn as its domain. Am i missing something?
jld
1
I think well ordered means every subset has a least element while totally ordered means for all x and y, exactly one of x<y, x>y, or x=y holds, so N is both, R is just totally ordered, and C is neither. We absolutely need to multiply and add probabilities so at the very least the codomain of P ought to be a field, but I don’t think it has to be totally ordered or complete. Complex valued measures are an example of the first and hyperreal valued measures are an example of the second. All of these are metric spaces though (or can be)
jld
6

I'm sure you'll get good answers, but will give you a slightly different perspective here.

You may have heard mathematicians saying that physics is pretty much mathematics, or just an application of mathematics to the most basic laws of nature. Some mathematicians (many?) actually do believe that this the case. I've heard that over and over in university. In this regard you're asking a similar question, though not as wide sweeping as this one.

Physicist usually don't bother even responding to this statement: it's too obvious to them that it's not true. However, if you try to respond it becomes clear that the answer is not so trivial, if you want to make it convincing.

My answer is that physics is not just a bunch of models and equations and theories. It's a field with its own set of approaches and tools and heuristics and the ways of thinking. That's one reason why although Poincare developed relativity theory before Einstein, he didn't realize all the implications and didn't pursue to get everyone on board. Einstein did, because he was a physicist and he got what it meant immediately. I'm not a fan of the guy, but his work on Brownian motion is another example of how a physicist builds a mathematical model. That paper is amazing, and is filled with intuition and traces of thinking that are unmistakenly physics-ey.

So, my answer to you is that even if it were the case that probability deals with the kind of functions you described, it would still not have been the study of those function. Nor it is a measure theory applied to some subclass of measures. Probability theory is the distinct field that studies probabilities, it's linked to a natural world through radioactive decay and quantum mechanics and gases etc. If it happens so that certain functions seem to be suitable to model probabilities, then we'll use them and study their properties too, but while doings so we'll keep an eye on the main prize - the probabilities.

Aksakal
źródło
1
+1 for bringing reality to a math fight and actually answering the question with the only reasonable answer, i.e. that any such reductionism misses the point
jld
@Chaconne I learned a useful word today reductionism, will incorporate it in my vocabulary :)
Aksakal
+1, this is what I was trying to say with my answer, but I said it less effectively than you I think.
Nathaniel
4

Well, partially true, it lacks a second condition. Negative probabilities do not make sense. Hence, these functions have to satisfy two conditions:

  • Continuous distributions:

    Df(x)dx=1andf(x)>0xD
  • Discrete distributions:

    xDP(x)=1and0<P(x)1xD

Where D is the domain where probability distribution is defined.

Carlos Campos
źródło
Thanks a lot Carlos for the answer, actually I want to know what if the non negative condition was added?
dontloo
1
I would say that reducing probability field to study of probability density/mass functions (fulfilling the upper properties) is too bare. Moreover, as it has been stated by @AdamO, there are some cases of random variables which do not have probability density function, even though they have a well defined cdf.
Carlos Campos
@CarlosCampos: Regarding negative probabilities: They actually do make sense in some contexts, e.g. half coins. See en.wikipedia.org/wiki/Negative_probability for a bit more information.
Inkane
3

I would say no, that's not what probability theory fundamentally is, but I would say it for different reasons than the other answers.

Fundamentally, I would say, probability theory is the study of two things:

  1. Stochastic processes, and

  2. Bayesian inference.

Stochastic processes includes things like rolling dice, drawing balls from urns, etc., as well as the more sophisticated models found in physics and mathematics. Bayesian inference is reasoning under uncertainty, using probabilities to represent the value of unknown quantities.

These two things are more closely related than they might at first appear. One reason we can study them under the same umbrella is that important aspects of both of them can be represented as non-negative functions that sum/integrate to one. But probability isn't just the study of those functions - their interpretation in terms of random processes and inference is also an important part of it.

For example, probability theory includes concepts such as conditional probabilities and random variables, and quantities such as the entropy, the mutual information, and the expectation and variance of random variables. While one could define these things purely in terms of normalised non-negative functions, the motivation for this would seem pretty weird without the interpretation in terms of random processes and inference.

Moreover, one sometimes comes across concepts in probability theory, particularly on the inference side, which cannot be expressed in terms of a non-negative function that normalises to one. The so-called "improper priors" come to mind here, and AdamO gave the Cantor distribution as another example.

There certainly are some areas of probability theory in which the main interest is in the mathematical properties of normalised non-negative functions, for which the two application domains I mentioned are not important. When this is the case, we often call it measure theory rather than probability theory. But probability theory is also - indeed, I would say mostly - an applied field, and the applications of probability distributions are in themselves a non-trivial component of the field.

Nathaniel
źródło
2
You made the domain of topics in probability theory pretty narrow...
Tim
@Tim not on purpose - I divided it into two areas, but intended each of them to be interpreted very broadly. Can you give me some other topics that don't fit under either heading?
Nathaniel