Hmmm ... Ta ostatnia nie powinna być funkcją x, ale liczbą! Czy się mylę?
David
Odpowiedzi:
23
Z grubsza mówiąc, różnica między E ( X ∣ Y )E(X∣Y) i E ( X ∣ Y = y )E(X∣Y=y) polega na tym, że ta pierwsza jest zmienną losową, podczas gdy druga (w pewnym sensie) jest realizacją E ( X ∣ Y )E(X∣Y) . Na przykład, jeśli ( X , Y ) ∼ N ( 0 , ( 1 ρ ρ 1 ) ),
(X,Y)∼N(0,(1ρρ1))
to E ( X ∣ Y )E(X∣Y) jest zmienną losową
E ( X | Y ) = ρ Y .
E(X∣Y)=ρY.
I odwrotnie, pozaobserwowaniu Y = yY=y , bardziej prawdopodobne byłoby zainteresowanie wielkością E ( X ∣ Y = y ) = ρ y,E(X∣Y=y)=ρy która jest skalarem.
Być może wydaje się to niepotrzebną komplikacją, ale uznanie E ( X ∣ Y )E(X∣Y) za zmienną losową samą w sobie jest tym, co sprawia, że takie prawo jak wieża E ( X ) = E [ E ( X ∣ Y ) ]E(X)=E[E(X∣Y)] ma sens - coś wewnątrz nawiasów klamrowych jest losowe, więc możemy zapytać, jakie jest jego oczekiwanie, podczas gdy E nie ma nic losowego ( X ∣ Y = y )E(X∣Y=y) . W większości przypadków możemy mieć nadzieję na obliczenie
E ( X ∣ Y = y ) = ∫ x f X ∣ Y ( x ∣ y ) d x
E(X∣Y=y)=∫xfX∣Y(x∣y)dx
a następnie uzyskaj E ( X ∣ Y )E(X∣Y) poprzez „wpięcie” losowej zmiennej YY zamiast yy w wynikowym wyrażeniu. Jak wskazano we wcześniejszym komentarzu, istnieje pewna subtelność, która może wkradać się w odniesieniu do rygorystycznego definiowania tych rzeczy i łączenia ich w odpowiedni sposób. Zdarza się to z prawdopodobieństwem warunkowym, z powodu pewnych problemów technicznych związanych z podstawową teorią.
Niech y 0y0 będzie stałą liczbą rzeczywistą, powiedzmy y 0 = 1y0=1 . Następnie
E [ X | Y = Y 0 ] = E [ X | Y = 1 ],E[X∣Y=y0]=E[X∣Y=1] to
ilość : jest uwarunkowane wartością oczekiwaną z XX ponieważ YY ma wartość 11 . Teraz zwróć uwagę na inną stałą liczbę rzeczywistą y 1y1 , powiedzmy y 1 = 1,5y1=1.5 , E. [ X ∣ Y = y 1 ] = E [ X ∣ Y = 1,5 ]E[X∣Y=y1]=E[X∣Y=1.5] będzie warunkową wartością oczekiwaną
X,X biorąc pod uwagę Y = 1,5Y=1.5 (liczba rzeczywista). Nie ma powodu przypuszczać, że E [ X ∣ Y = 1,5 ]E[X∣Y=1.5] i E [ X ∣ Y = 1 ]E[X∣Y=1] mają tę samą wartość. Zatem możemy również uwzględnić E [ X ∣ Y = y ]E[X∣Y=y] za a funkcja o wartościach rzeczywistych g ( y ),g(y)
która odwzorowuje liczby rzeczywiste yy na liczby rzeczywiste E [ X ∣ Y = y ]E[X∣Y=y] . Zauważ, że stwierdzenie w pytaniu PO, że E [ X ∣ Y = y ]E[X∣Y=y] jest funkcją
x,x jest niepoprawne: E [ X ∣ Y = y ]E[X∣Y=y] jest funkcją yy o wartości rzeczywistej .
Z drugiej strony, E [ X | Y ]E[X∣Y] jest zmienną losową ZZ który okazuje się być funkcją zmiennej losowej YY . Teraz, ilekroć piszemy Z = h ( Y )Z=h(Y) , rozumiemy przez to, że ilekroć zmienna losowa
YY ma wartość yy , zmienna losowa ZZ ma wartość
h ( y )h(y) . Ilekroć YY przyjmuje wartość yy , zmienna losowa Z = E [X∣Y]Z=E[X∣Y] takes on value E[X∣Y=y]=g(y)E[X∣Y=y]=g(y).
Thus, E[X∣Y]E[X∣Y] is just another name for the random
variable Z=g(Y)Z=g(Y). Note that E[X∣Y]E[X∣Y] is a function of YY
(not yy as in the statement of the OP's question).
As a a simple illustrative
example, suppose that
XX and YY are discrete random variables with joint distribution
P(X=0,Y=0)=0.1,P(X=0,Y=1)=0.2,P(X=1,Y=0)=0.3,P(X=1,Y=1)=0.4.
Note that XX and YY are (dependent) Bernoulli random variables
with parameters 0.70.7 and 0.60.6 respectively, and so E[X]=0.7E[X]=0.7
and E[Y]=0.6E[Y]=0.6.
Now, note that conditioned on Y=0Y=0, XX is a Bernoulli random variable
with parameter 0.750.75 while conditioned on Y=1Y=1, XX is a Bernoulli
random variable with parameter 2323. If you cannot see why this is
so immediately, just work out the details: for example
P(X=1∣Y=0)=P(X=1,Y=0)P(Y=0)=0.30.4=34,P(X=0∣Y=0)=P(X=0,Y=0)P(Y=0)=0.10.4=14,
and similarly for P(X=1∣Y=1)P(X=1∣Y=1) and P(X=0∣Y=1)P(X=0∣Y=1).
Hence, we have that
E[X∣Y=0]=34,E[X∣Y=1]=23.
E[X∣Y=0]=34,E[X∣Y=1]=23.
Thus, E[X∣Y=y]=g(y)E[X∣Y=y]=g(y) where g(y)g(y) is a real-valued function
enjoying the
properties: g(0)=34,g(1)=23.
g(0)=34,g(1)=23.
On the other hand, E[X∣Y]=g(Y)E[X∣Y]=g(Y) is a random variable
that takes on values 3434 and 2323 with
probabilities 0.4=P(Y=0)0.4=P(Y=0) and 0.6=P(Y=1)0.6=P(Y=1) respectively.
Note that E[X∣Y]E[X∣Y] is a discrete random variable
but is not a Bernoulli random variable.
As a final touch, note that
E[Z]=E[E[X∣Y]]=E[g(Y)]=0.4×34+0.6×23=0.7=E[X].
E[Z]=E[E[X∣Y]]=E[g(Y)]=0.4×34+0.6×23=0.7=E[X].
That is, the expected value of this function of YY, which
we computed using only the marginal distribution of YY,
happens to have the same numerical value as E[X]E[X] !! This
is an illustration of a more general result that many
people believe is a LIE:
E[E[X∣Y]]=E[X].
E[E[X∣Y]]=E[X].
Sorry, that's just a small joke. LIE is an acronym for Law of Iterated
Expectation which is a perfectly valid result that everyone
believes is the truth.
E(X|Y)E(X|Y) is the expectation of a random variable: the expectation of XX conditional on YY.
E(X|Y=y)E(X|Y=y), on the other hand, is a particular value: the expected value of XX when Y=y.
Think of it this way: let X represent the caloric intake and Y represent height. E(X|Y) is then the caloric intake, conditional on height - and in this case, E(X|Y=y) represents our best guess at the caloric intake (X) when a person has a certain height Y=y, say, 180 centimeters.
I believe your first sentence should replace "distribution" with "expectation" (twice).
Glen_b -Reinstate Monica
4
E(X∣Y) isn't the distribution of X given Y; this would be more commonly denotes by the conditional density fX∣Y(x∣y) or conditional distribution function. E(X∣Y) is the conditional expectation of X given Y, which is a Y-measurable random variable. E(X∣Y=y) might be thought of as the realization of the random variable E(X∣Y) when Y=y is observed (but there is the possibility for measure-theoretic subtlety to creep in).
guy
1
@guy Your explanation is the first accurate answer yet provided (out of three offered so far). Would you consider posting it as an answer?
whuber
@whuber I would but I'm not sure how to strike the balance between accuracy and making the answer suitably useful to OP and I'm paranoid about getting tripped up on technicalities :)
guy
@Guy I think you have already done a good job with the technicalities. Since you are sensitive about communicating well with the OP (which is great!), consider offering a simple example to illustrate--maybe just a joint distribution with binary marginals.
whuber
1
E(X|Y) is expected value of values of X given values of YE(X|Y=y) is expected value of X given the value of Y is y
Generally P(X|Y) is probability of values X given values Y, but you can get more precise and say P(X=x|Y=y), i.e. probability of value x from all X's given the y'th value of Y's. The difference is that in the first case it is about "values of" and in the second you consider a certain value.
Odpowiedzi:
Z grubsza mówiąc, różnica między E ( X ∣ Y )E(X∣Y) i E ( X ∣ Y = y )E(X∣Y=y) polega na tym, że ta pierwsza jest zmienną losową, podczas gdy druga (w pewnym sensie) jest realizacją E ( X ∣ Y )E(X∣Y) . Na przykład, jeśli ( X , Y ) ∼ N ( 0 , ( 1 ρ ρ 1 ) ),
Być może wydaje się to niepotrzebną komplikacją, ale uznanie E ( X ∣ Y )E(X∣Y) za zmienną losową samą w sobie jest tym, co sprawia, że takie prawo jak wieża E ( X ) = E [ E ( X ∣ Y ) ]E(X)=E[E(X∣Y)] ma sens - coś wewnątrz nawiasów klamrowych jest losowe, więc możemy zapytać, jakie jest jego oczekiwanie, podczas gdy E nie ma nic losowego ( X ∣ Y = y )E(X∣Y=y) . W większości przypadków możemy mieć nadzieję na obliczenie
E ( X ∣ Y = y ) = ∫ x f X ∣ Y ( x ∣ y ) d x
a następnie uzyskaj E ( X ∣ Y )E(X∣Y) poprzez „wpięcie” losowej zmiennej YY zamiast yy w wynikowym wyrażeniu. Jak wskazano we wcześniejszym komentarzu, istnieje pewna subtelność, która może wkradać się w odniesieniu do rygorystycznego definiowania tych rzeczy i łączenia ich w odpowiedni sposób. Zdarza się to z prawdopodobieństwem warunkowym, z powodu pewnych problemów technicznych związanych z podstawową teorią.
źródło
Załóżmy, że XX i YY są zmiennymi losowymi.
Niech y 0y0 będzie stałą liczbą rzeczywistą, powiedzmy y 0 = 1y0=1 . Następnie
E [ X | Y = Y 0 ] = E [ X | Y = 1 ],E[X∣Y=y0]=E[X∣Y=1] to
ilość : jest uwarunkowane wartością oczekiwaną z XX ponieważ YY ma wartość 11 . Teraz zwróć uwagę na inną stałą liczbę rzeczywistą y 1y1 , powiedzmy y 1 = 1,5y1=1.5 , E. [ X ∣ Y = y 1 ] = E [ X ∣ Y = 1,5 ]E[X∣Y=y1]=E[X∣Y=1.5] będzie warunkową wartością oczekiwaną
X,X biorąc pod uwagę Y = 1,5Y=1.5 (liczba rzeczywista). Nie ma powodu przypuszczać, że E [ X ∣ Y = 1,5 ]E[X∣Y=1.5] i E [ X ∣ Y = 1 ]E[X∣Y=1] mają tę samą wartość. Zatem możemy również uwzględnić E [ X ∣ Y = y ]E[X∣Y=y] za a funkcja o wartościach rzeczywistych g ( y ),g(y)
która odwzorowuje liczby rzeczywiste yy na liczby rzeczywiste E [ X ∣ Y = y ]E[X∣Y=y] . Zauważ, że stwierdzenie w pytaniu PO, że E [ X ∣ Y = y ]E[X∣Y=y] jest funkcją
x,x jest niepoprawne: E [ X ∣ Y = y ]E[X∣Y=y] jest funkcją yy o wartości rzeczywistej .
Z drugiej strony, E [ X | Y ]E[X∣Y] jest zmienną losową ZZ który okazuje się być funkcją zmiennej losowej YY . Teraz, ilekroć piszemy Z = h ( Y )Z=h(Y) , rozumiemy przez to, że ilekroć zmienna losowa
YY ma wartość yy , zmienna losowa ZZ ma wartość
h ( y )h(y) . Ilekroć YY przyjmuje wartość yy , zmienna losowa
Z = E [X∣Y]Z=E[X∣Y] takes on value E[X∣Y=y]=g(y)E[X∣Y=y]=g(y) .
Thus, E[X∣Y]E[X∣Y] is just another name for the random
variable Z=g(Y)Z=g(Y) . Note that E[X∣Y]E[X∣Y] is a function of YY
(not yy as in the statement of the OP's question).
As a a simple illustrative example, suppose that XX and YY are discrete random variables with joint distribution
P(X=0,Y=0)=0.1, P(X=0,Y=1)=0.2,P(X=1,Y=0)=0.3, P(X=1,Y=1)=0.4.P(X=0,Y=0)P(X=1,Y=0)=0.1, P(X=0,Y=1)=0.2,=0.3, P(X=1,Y=1)=0.4.
Note that XX and YY are (dependent) Bernoulli random variables
with parameters 0.70.7 and 0.60.6 respectively, and so E[X]=0.7E[X]=0.7
and E[Y]=0.6E[Y]=0.6 .
Now, note that conditioned on Y=0Y=0 , XX is a Bernoulli random variable
with parameter 0.750.75 while conditioned on Y=1Y=1 , XX is a Bernoulli
random variable with parameter 2323 . If you cannot see why this is
so immediately, just work out the details: for example
P(X=1∣Y=0)=P(X=1,Y=0)P(Y=0)=0.30.4=34,P(X=0∣Y=0)=P(X=0,Y=0)P(Y=0)=0.10.4=14,P(X=1∣Y=0)=P(X=1,Y=0)P(Y=0)=0.30.4=34,P(X=0∣Y=0)=P(X=0,Y=0)P(Y=0)=0.10.4=14,
and similarly for P(X=1∣Y=1)P(X=1∣Y=1) and P(X=0∣Y=1)P(X=0∣Y=1) .
Hence, we have that
E[X∣Y=0]=34,E[X∣Y=1]=23.E[X∣Y=0]=34,E[X∣Y=1]=23.
Thus, E[X∣Y=y]=g(y)E[X∣Y=y]=g(y) where g(y)g(y) is a real-valued function
enjoying the
properties: g(0)=34,g(1)=23.g(0)=34,g(1)=23.
On the other hand, E[X∣Y]=g(Y)E[X∣Y]=g(Y) is a random variable
that takes on values 3434 and 2323 with
probabilities 0.4=P(Y=0)0.4=P(Y=0) and 0.6=P(Y=1)0.6=P(Y=1) respectively.
Note that E[X∣Y]E[X∣Y] is a discrete random variable
but is not a Bernoulli random variable.
As a final touch, note that E[Z]=E[E[X∣Y]]=E[g(Y)]=0.4×34+0.6×23=0.7=E[X].E[Z]=E[E[X∣Y]]=E[g(Y)]=0.4×34+0.6×23=0.7=E[X].
That is, the expected value of this function of YY , which
we computed using only the marginal distribution of YY ,
happens to have the same numerical value as E[X]E[X] !! This
is an illustration of a more general result that many
people believe is a LIE:
E[E[X∣Y]]=E[X].E[E[X∣Y]]=E[X].
Sorry, that's just a small joke. LIE is an acronym for Law of Iterated Expectation which is a perfectly valid result that everyone believes is the truth.
źródło
E(X|Y)E(X|Y) is the expectation of a random variable: the expectation of XX conditional on YY .
E(X|Y=y)E(X|Y=y) , on the other hand, is a particular value: the expected value of XX when Y=y.
Think of it this way: let X represent the caloric intake and Y represent height. E(X|Y) is then the caloric intake, conditional on height - and in this case, E(X|Y=y) represents our best guess at the caloric intake (X) when a person has a certain height Y=y, say, 180 centimeters.
źródło
E(X|Y) is expected value of values of X given values of Y E(X|Y=y) is expected value of X given the value of Y is y
Generally P(X|Y) is probability of values X given values Y, but you can get more precise and say P(X=x|Y=y), i.e. probability of value x from all X's given the y'th value of Y's. The difference is that in the first case it is about "values of" and in the second you consider a certain value.
You could find the diagram below helpful.
źródło