Niech oznacza medianę i niech oznacza średnią losowej próbki o wielkości z rozkładu, który jest . Jak obliczyć E (Y | \ bar {X} = \ bar {x}) ?Y
Intuicyjnie, ze względu na założenie normalności, sensowne jest twierdzenie, że E(Y|ˉX=ˉx)=ˉx
Początkowo myślałem o podejściu do tego problemu przy użyciu warunkowego rozkładu normalnego, który jest ogólnie znanym rezultatem. Problem polega na tym, że ponieważ nie znam wartości oczekiwanej, a co za tym idzie wariancji mediany, musiałbym obliczyć te przy użyciu statystyki k+1
źródło
Odpowiedzi:
Niech XX oznaczają oryginalnej próbki i Z.Z losowy wektor z wpisami Z k = X k - ° XZk=Xk−X¯ . Wówczas ZZ jest normalnie wyśrodkowany (ale jego wpisy nie są niezależne, jak widać z faktu, że ich suma wynosi zero z pełnym prawdopodobieństwem). Jako liniowe funkcyjną XX , z wektorem ( Z , ˉ X )(Z,X¯) jest normalne stąd wystarczy obliczenie jego macierzy kowariancji pokazać, że ZZ jest niezależnie od °° XX¯ .
Przechodząc do YY , widać, że Y = ˉ X + TY=X¯+T , gdzie TT jest mediana ZZ . W szczególności, TT zależy tylko od Z,Z stąd TT jest niezależny od ˉ XX¯ , a rozkład ZZ jest symetryczny, a zatem TT jest wyśrodkowany.
Wreszcie, E ( Y | ˉ X ) = ˉ X + e ( T | ˉ X ) = ˉ X + e ( t ) = ˉ X .
źródło
Mediana próbki jest statystyką rzędu i ma rozkład nienormalny, więc łączny rozkład próby skończonej próbki mediany próbki i średniej próbki (która ma rozkład normalny) nie byłby dwuwymiarowy normalny. Odwołując się do przybliżeń, asymptotycznie następujące twierdzenia (patrz moja odpowiedź tutaj ):
√n [ ( ˉ X n Y n ) - ( μ v ) ] → LN [ ( 0 0 ) , Σ ]
z
Σ = ( σ 2 E ( | X - v | ) [ 2 f ( v ) ] - 1 E ( | X - v | ) [ 2 f ( v ) ] - 1 [ 2 f ( v ) ] - 2 )
gdzie ˉ X n jest średnią próbki, a μ średnią populacji, Y n jest medianą próby v v mediana populacji, f ( ) jest gęstością prawdopodobieństwa zaangażowanych zmiennych losowych, a σ 2 jest wariancją.X¯n μ Yn v f() σ2
Tak więc w przybliżeniu dla dużych próbek ich wspólny rozkład jest dwuwymiarowy normalny, więc mamy to
E ( Y n ∣ ˉ X n = ˉ x ) = v + ρ σ vσ ˉ X ( ˉ x -μ)
gdzie ρ jest współczynnikiem korelacji.ρ
Manipulując rozkładem asymptotycznym, aby stać się przybliżonym rozkładem łącznej dużej próbki dla średniej próbki i mediany próbki (a nie standardowych wielkości), mamy ρ = 1n E(|X-v|)[2f(v)]-11n σ[2f(v)]-1=E(|X-v|)σ
So E(Yn∣ˉXn=ˉx)=v+E(|X−v|)σ[2f(v)]−1σ(ˉx−μ)
We have that 2f(v)=2/σ√2π2f(v)=2/σ2π−−√ due to the symmetry of the normal density so we arrive at
E(Yn∣ˉXn=ˉx)=v+√π2E(|X−μσ|)(ˉx−μ)
where we have used v=μv=μ . Now the standardized variable is a standard normal, so its absolute value is a half-normal distribution with expected value equal to √2/π2/π−−−√ (since the underlying variance is unity). So
E(Yn∣ˉXn=ˉx)=v+√π2√2π(ˉx−μ)=v+ˉx−μ=ˉx
źródło
The answer is ˉxx¯ .
Let x=(x1,x2,…,xn)x=(x1,x2,…,xn) have a multivariate distribution FF for which all the marginals are symmetric about a common value μμ . (It does not matter whether they are independent or even are identically distributed.) Define ˉxx¯ to be the arithmetic mean of the xi,xi, ˉx=(x1+x2+⋯+xn)/nx¯=(x1+x2+⋯+xn)/n and write x−ˉx=(x1−ˉx,x2−ˉx,…,xn−ˉx)x−x¯=(x1−x¯,x2−x¯,…,xn−x¯) for the vector of residuals. The symmetry assumption on FF implies the distribution of x−ˉxx−x¯ is symmetric about 00 ; that is, when E⊂RnE⊂Rn is any event,
PrF(x−ˉx∈E)=PrF(x−ˉx∈−E).
Applying the generalized result at /stats//a/83887 shows that the median of x−ˉxx−x¯ has a symmetric distribution about 00 . Assuming its expectation exists (which is certainly the case when the marginal distributions of the xixi are Normal), that expectation has to be 00 (because the symmetry implies it equals its own negative).
Now since subtracting the same value ˉxx¯ from each of a set of values does not change their order, YY (the median of the xixi ) equals ˉxx¯ plus the median of x−ˉxx−x¯ . Consequently its expectation conditional on ˉxx¯ equals the expectation of x−ˉxx−x¯ conditional on ˉxx¯ , plus E(ˉx | ˉx)E(x¯ | x¯) . The latter obviously is ˉxx¯ whereas the former is 00 because the unconditional expectation is 00 . Their sum is ˉx,x¯, QED.
źródło
This is simpler than the above answers make it. The sample mean is a complete and sufficient statistic (when the variance is known, but our results do not depend on the variance, hence will be valid also in the situation when the variance is unknown). Then the Rao-Blackwell together with the Lehmann-Scheffe theorems (see wikipedia ...) will imply that the conditional expectation of the median, given the arithmetic mean, is the unique minimum variance unbiased estimator of the expectation μ. But we know that is the arithmetic mean, hence the result follows.
We did also use that the median is an unbiased estimator, which follows from symmetry.
źródło