Czy istnieje przykład, w którym MLE daje stronnicze oszacowanie średniej?

17

Czy możesz podać przykład estymatora MLE średniej stronniczości?

Nie szukam przykładu, który ogólnie łamie estymatory MLE, naruszając warunki regularności.

Wszystkie przykłady, które widzę w Internecie, odnoszą się do wariancji i nie mogę znaleźć niczego związanego ze średnią.

EDYTOWAĆ

@MichaelHardy podał przykład, w którym otrzymujemy tendencyjne oszacowanie średniej rozkładu jednolitego przy użyciu MLE w ramach określonego proponowanego modelu.

jednak

https://en.wikipedia.org/wiki/Uniform_distribution_(continuous)#Estimation_of_midpoint

sugeruje, że MLE jest jednakowo minimalnym obiektywnym estymatorem średniej, wyraźnie w innym proponowanym modelu.

W tym momencie nadal nie jest dla mnie bardzo jasne, co oznacza estymacja MLE, jeśli jest ona bardzo hipotetycznie zależna od modelu, w przeciwieństwie do estymatora średniej próby, który jest neutralny dla modelu. Na koniec jestem zainteresowany oszacowaniem czegoś na temat populacji i tak naprawdę nie obchodzi mnie oszacowanie parametru modelu hipotetycznego.

EDYCJA 2

Jak @ChristophHanck pokazał model z dodatkowymi informacjami wprowadzonymi uprzedzeniami, ale nie udało się zmniejszyć MSE.

Mamy również dodatkowe wyniki:

http://www.maths.manchester.ac.uk/~peterf/CSI_ch4_part1.pdf (p61) http://www.cs.tut.fi/~hehu/SSP/lecture6.pdf (slajd 2) http: / /www.stats.ox.ac.uk/~marchini/bs2a/lecture4_4up.pdf (slajd 5)

„Jeśli istnieje najbardziej wydajny obiektywny estymator ˆθ z ((tj. ˆΘ jest obiektywny, a jego wariancja jest równa CRLB), metoda szacowania przy maksymalnym prawdopodobieństwie go wytworzy”.

„Ponadto, jeśli istnieje skuteczny estymator, jest to estymator ML”.

Ponieważ MLE z parametrami modelu swobodnego jest obiektywny i wydajny, to z definicji jest to „Estymator maksymalnego prawdopodobieństwa?

EDYCJA 3

@AlecosPapadopoulos ma przykład z rozkładem Half Normal na forum matematycznym.

/math/799954/can-the-maximum-likelihood-estimator-be-unnośne-and-fail-to-achieve-cramer-rao

Nie zakotwicza żadnego z jego parametrów, jak w przypadku jednolitym. Powiedziałbym, że to załatwia sprawę, chociaż nie wykazał stronniczości przeciętnego estymatora.

Cagdas Ozgenc
źródło
10
Średnia munduru na zero i theta.
Christoph Hanck
1
Nie mogę zastosować się do twojego rozróżnienia między „szacowaniem czegoś o populacji” a „parametrem modelu hipotetycznego”. We wszystkich statystykach parametrycznych parametryzujemy populację według niektórych parametrów. Oczywiście możemy zatem napotkać problemy z błędnym sprecyzowaniem, ale nie wydaje się to mieć związku z omawianą kwestią.
Christoph Hanck,
5
Na przykład, że populację można scharakteryzować za pomocą jej parametrów / momentów, takich jak średnia i wariancja (co byłoby wystarczające na przykład dla normalnej populacji). I: Nie sądzę, że ludzie są mniej lub bardziej pedantyczni wobec ciebie niż wśród innych osób na tym forum.
Christoph Hanck,
2
Jeśli czujesz się niezadowolony z powodu pozornej sztuczki ręki przełączania między „parametrem” i „średnią”, pozwól mi zdefiniować pewien nieujemny rozkład w kategoriach jego średniej μ , o gęstości 12μ na podstawie[0,2μ]...
Silverfish,
1
Jeśli chodzi o edycję 2, wiele z tych wyników jest uzyskiwanych w warunkach regularności, które nie są spełnione dla jednolitego przykładu omówionego w tym wątku, dla którego przestrzeń próbki zależy od parametru.
Christoph Hanck

Odpowiedzi:

32

Christoph Hanck nie opublikował szczegółów swojego proponowanego przykładu. Rozumiem, że oznacza rozkład równomierny w przedziale [0,θ], na podstawie próbki Iid X1,,Xn o wielkości większej niż n=1.

Średnia to θ/2 .

Średnia MLE to max{X1,,Xn}/2.

Jest to tendencyjne, ponieważ więc E ( max / 2 ) < θ / 2.Pr(max<θ)=1,E(max/2)<θ/2.

PS: Być może powinniśmy zauważyć, że najlepszym obiektywnym estymatorem średniej nie jest średnia z próby, ale raczej n + 1θ/2Średnia próbki jest kiepskim estymatoremθ/2,ponieważ dla niektórych próbek średnia próbki jest mniejsza niż

n+12nmax{X1,,Xn}.
θ/2i to oczywiście możliwe dlaθ/2powinna być mniejsza odmaksymalnego/2koniec PS12max{X1,,Xn},θ/2max/2.

Podejrzewam, że dystrybucja Pareto to kolejny taki przypadek. Oto miara prawdopodobieństwa: Oczekiwana wartość toα

α(κx)α dxx for x>κ.
MLE oczekiwanej wartości wynosi nαα1κ. gdziemin=min{X1,,Xn}.
nni=1n((logXi)log(min))min
min=min{X1,,Xn}.

Nie opracowałem oczekiwanej wartości MLE dla średniej, więc nie wiem, jaka jest jej stronniczość.

Michael Hardy
źródło
12
Cagdas, nie ma sensu prosić o przykład, a następnie zaprzeczać, że zaproponowałbyś coś innego! To tak, jakby poprosić o przykładowy owoc, który nie jest czerwony, pokazać jagodę, a następnie powiedzieć, że się nie liczy, ponieważ nie lubisz jagód.
whuber
7
To nie dotyczy zadanego pytania.
whuber
8
@CagdasOzgenc: To, czy MLE jest stronnicze, zależy od modelu. Nie ma czegoś takiego jak MLE bez modelu. A jeśli zmienisz model, zmienisz MLE.
Michael Hardy,
8
@CagdasOzgenc Oto socjokratyczne pytanie: średnia próbki jest bezstronnym estymatorem czego? Potrzebujesz modelu, aby mieć parametr do oszacowania.
Matthew Drury,
9
Średnia próbki średniej jest bezstronnym estymatorem średniej populacji, ale nie można mówić o estymatorze największego prawdopodobieństwa niczego bez większej struktury niż to, co jest potrzebne, aby mówić o bezstronnym estymatorze czegoś.
Michael Hardy,
18

Oto przykład, który moim zdaniem może zaskoczyć:

W regresji logistycznej dla dowolnej skończonej wielkości próby z wynikami niedeterministycznymi (tj. 0<pi<1 ), każdy oszacowany współczynnik regresji jest nie tylko tendencyjny, średnia współczynnika regresji jest w rzeczywistości nieokreślona.

Wynika to z faktu, że dla dowolnej skończonej wielkości próbki istnieje dodatnie prawdopodobieństwo (choć bardzo małe, jeśli liczba próbek jest duża w porównaniu z liczbą parametrów regresji) uzyskania idealnego rozdziału wyników. Kiedy tak się stanie, szacowane współczynniki regresji będą wynosić lub . Mając dodatnie prawdopodobieństwo bycia - lub oznacza, że ​​oczekiwana wartość jest niezdefiniowana.

Aby uzyskać więcej informacji na ten temat, zobacz efekt Haucka-Donnera .

Cliff AB
źródło
1
To całkiem sprytne. Zastanawiam się, czy MLE współczynników regresji logistycznej jest obiektywnie uzależnione od braku pewności efektu Haucka-Donnera?
gung - Przywróć Monikę
3
@gung: Krótka odpowiedź: ignorując efekt Haucka-Donnera, nadal występuje tendencja wzrostowa w współczynnikach regresji absolutnej (tj. współczynniki ujemne mają tendencję spadkową, pozytywne mają tendencję wzrostową). Co ciekawe, wydaje się, że w szacowanych prawdopodobieństwach występuje odchylenie w kierunku 0,5. Zacząłem pisać o tym w tym poście , ale nie podałem moich wyników na temat błędów szacunkowych prawdopodobieństw.
Cliff AB
10

Chociaż @MichaelHardy dokonał punkt, tutaj jest bardziej szczegółowy argumentem, dlaczego MLE maksimum (a więc, że od średniej , według niezmienniczości) nie jest obiektywne, chociaż jest w innym modelu (patrz edycja poniżej).θ/2

Szacujemy górną granicę rozkładu równomiernego . Tutaj y ( n ) jest MLE dla losowej próbki y . Pokazujemy, że y ( n ) nie jest bezstronny. Jego format cdf to F y ( n ) ( x )U[0,θ]y(n)yy(n) Zatem jego gęstość wynosi fy(n)(x)={n

Fy(n)(x)=Pr{Y1x,,Ynx}=Pr{Y1x}n={0forx<0(xθ)nfor0xθ1forx>θ
fy(n)(x)={nθ(xθ)n1for0xθ0else
Hence,
E[Y(n)]=0θxnθ(xθ)n1dx=0θn(xθ)ndx=nn+1θ

EDIT: It is indeed the case that (see the discussion in the comments) the MLE is unbiased for the mean in the case in which both the lower bound a and upper bound b are unknown. Then, the minimum Y(1) is the MLE for a, with (details omitted) expected value

E(Y(1))=na+bn+1
while
E(Y(n))=nb+an+1
so that the MLE for (a+b)/2 is
Y(1)+Y(n)2
with expected value
E(Y(1)+Y(n)2)=na+b+nb+a2(n+1)=a+b2

EDIT 2: To elaborate on Henry's point, here is a little simulation for the MSE of the estimators of the mean, showing that while the MLE if we do not know the lower bound is zero is unbiased, the MSEs for the two variants are identical, suggesting that the estimator which incorporates knowledge of the lower bound reduces variability.

theta <- 1
mean <- theta/2
reps <- 500000
n <- 5
mse <- bias <- matrix(NA, nrow = reps, ncol = 2)

for (i in 1:reps){
  x <- runif(n, min = 0, max = theta)
  mle.knownlowerbound <- max(x)/2
  mle.unknownlowerbound <- (max(x)+min(x))/2
  mse[i,1] <- (mle.knownlowerbound-mean)^2
  mse[i,2] <- (mle.unknownlowerbound-mean)^2
  bias[i,1] <- mle.knownlowerbound-mean
  bias[i,2] <- mle.unknownlowerbound-mean

}

> colMeans(mse)
[1] 0.01194837 0.01194413

> colMeans(bias)
[1] -0.083464968 -0.000121968
Christoph Hanck
źródło
Ponieważ Wikipedia proponuje na początek inny model. Tam leży moje zamieszanie.
Cagdas Ozgenc
Tak, ale kiedy dostosujemy się do omawianego tutaj szczególnego przypadku, mianowicie za=0, wróciliśmy do kwadratu 1. W takim przypadku nie potrzebujemy już minimum próbki do oszacowania, ponieważ wiemy, że dolna granica wynosi zero, więc MLE punktu środkowego (= mediana = średnia) po prostu staje się(mzax+0)/2) jeszcze raz.
Christoph Hanck,
2
I have not worked out the details, but the MLE in that model could be unbiased if the minimum overestimates the lower bound by the same amount as the maximum underestimates the maximum, so that the midpoint is being estimated without bias.
Christoph Hanck
4
@CagdasOzgenc: unbiasedness is not the only or even the most important measure of better. By knowing one end of the support precisely, you may lose the balance between errors in estimating the mean, but you end up with (for example) a better estimate of the range
Henry
6
Maximum likelihood estimators are not always "best" across all criteria for small sample sizes. So what? They don't pretend to be, either. If you want to use a different estimator for your problem that has better properties according to some criterion for sample sizes that are in the neighborhood of your actual sample size, you're free to do so. I do so, and so do other people. No one is claiming that using MLE is justified in all situations just because it's MLE.
jbowman
5

Completing here the omission in my answer over at math.se referenced by the OP,

assume that we have an i.i.d. sample of size n of random variables following the Half Normal distribution. The density and moments of this distribution are

fH(x)=2/π1v1/2exp{x22v}E(X)=2/πv1/2μ,Var(X)=(12π)v

The log-likelihood of the sample is

L(vx)=nln2/πn2lnv12vi=1nxi2

The first derivative with respect to v is

vL(vx)=n2v+12v2i=1nxi2,v^MLE=1ni=1nxi2

so it is a method of moments estimator. It is unbiased since,

E(v^MLE)=E(X2)=Var(X)+[E(X)])2=(12π)v+2πv=v

But, the resulting estimator for the mean is downward biased due to Jensen's inequality

μ^MLE=2/πv^MLEE(μ^MLE)=2/πE(v^MLE)<2/π[E(v^MLE)]=2/πv=μ
Alecos Papadopoulos
źródło
4

The famous Neyman Scott problem has an inconsistent MLE in that it never even converges to the right thing. Motivates the use of conditional likelihood.

Take (Xi,Yi)N(μi,σ2). The MLE of μi is (Xi+Yi)/2 and of σ2 is σ^2=i=1n1nsi2 with si2=(Xiμ^i)2/2+(Yiμ^i)2/2=(XiYi)2/4 which has expected value σ2/4 and so biased by a factor of 2.

AdamO
źródło
2
While this example holds true, this actually defies one of the basic regularity conditions for asymptotic results of MLE's: that k/n0, where k is the number of parameters estimated and n is the sample size.
Cliff AB
1
@CliffAB the assumption violation is that the parametric dimension is not fixed. The dimension of Θ goes to as n. I think that's what you're saying, but don't know what k means. The practical illustration of this example of course is that these results would be biased even in small samples and you have to use conditional likelihood, like a mixed effects model, to estimate σ in this case.
AdamO
3

There is an infinite range of examples for this phenomenon since

  1. the maximum likelihood estimator of a bijective transform Ψ(θ) of a parameter θ is the bijective transform of the maximum likelihood estimator of θ, Ψ(θ^MLE);
  2. the expectation of the bijective transform of the maximum likelihood estimator of θ, Ψ(θ^MLE), E[Ψ(θ^MLE)] is not the bijective transform of the expectation of the maximum likelihood estimator, Ψ(E[θ^MLE]);
  3. most transforms Ψ(θ) are expectations of some transform of the data, h(X), at least for exponential families, provided an inverse Laplace transform can be applied to them.
Xi'an
źródło