Estymatory maksymalnego prawdopodobieństwa dla skróconego rozkładu

28

Rozważmy N niezależnych próbek S otrzymano z losowej zmiennej X , który jest przyjmowany śledzić skróconą dystrybucji (np obcięty rozkład normalny ) znanego (Finite) minimalne i maksymalne wartości a i b , lecz z nieznanych parametrów μ i σ2 . Jeśli X następnie non-obcięte rozkładzie estymatorów największej wiarygodności ľ i σ 2 do ľ i Ď 2 z S byłoby średniej próbki μμ^σ^2μσ2Si wariancją Próbka Ď 2=1μ^=1NiSi. Jednak w przypadku skróconego rozkładu wariancja próbki zdefiniowana w ten sposób jest ograniczona przez(b-a)2,więc nie zawsze jest to spójny estymator: dlaσ2>(b-a)2nie może zbiegać się z prawdopodobieństwem doσ2,gdyNprzechodzi w nieskończoność. Tak więc wydaje się, że ľ i σ 2nie są estymatory największej wiarygodności zľσ^2=1Ni(Siμ^)2(ba)2σ2>(ba)2σ2Nμ^σ^2μi dla skróconego rozkładu. Oczywiście należy się tego spodziewać, ponieważ parametry μ i σ 2 skróconego rozkładu normalnego nie są jego średnią i wariancją.σ2μσ2

Jakie zatem są estymatory maksymalnego prawdopodobieństwa parametrów i σ skróconego rozkładu znanych wartości minimalnych i maksymalnych?μσ

a3nm
źródło
Czy jesteś pewien swojej analizy? Wydaje mi się, że przyjmujesz błędne założenie: w przypadku okrojonej MLE nie jest już wariancją próbki (i ogólnie, MLE μ nie jest już średnią próbki)! σ2μ
whuber
whuber: Wiem, to jest dokładnie moje pytanie: jakie są MLE i μ w skróconym przypadku? Dodanie zdania, aby nalegać na to. σ2μ
a3nm
1
Nie ma rozwiązania w formie zamkniętej. Wszystko, co możesz zrobić, to zminimalizować prawdopodobieństwo dziennika. Ale jakościowo nie różni się to od wielu innych modeli, takich jak regresja logistyczna, które również nie mają rozwiązania w formie zamkniętej.
whuber
whuber: Jeśli to prawda, to jest dość rozczarowujące. Czy masz referencje na temat braku zamkniętych rozwiązań? Czy istnieją estymatory w formie zamkniętej, które nie mają maksymalnego prawdopodobieństwa, ale są przynajmniej spójne (i opcjonalnie obiektywne?).
a3nm
1
@whuber: Czy możesz przynajmniej uprościć próbki w wystarczające statystyki, aby minimalizacja była szybka?
Neil G

Odpowiedzi:

29

Rozważ dowolną rodzinę w skali lokalizacji określoną przez „standardowy” rozkład ,F

ΩF={F(μ,σ):xF(xμσ)σ>0}.

Zakładając, że rozróżnialny, z łatwością stwierdzamy, że pliki PDF to 1F.1σf((xμ)/σ)dx

Obcinania tych rozkładów ograniczyć ich powiązania pomiędzy i b , a < b , oznacza, że zastępuje się pliki PDFaba<b

f(μ,σ;a,b)(x)=f(xμσ)dxσC(μ,σ,a,b),axb

(i są zerami dla wszystkich innych wartości ) gdzie C ( μ , σ , a , b ) = F ( μ , σ ) ( b ) - F ( μ , σ ) ( a ) jest czynnikiem normalizującym potrzebnym do zapewnienia, że f ( μ , σ ; a , b ) całkuje się w jedność. (Zauważ, że C jest identycznie 1xC(μ,σ,a,b)=F(μ,σ)(b)F(μ,σ)(a)f(μ,σ;a,b)C1przy braku obcięcia.) Prawdopodobieństwo dziennika dla danych iid wynosi zatemxi

Λ(μ,σ)=i[logf(xiμσ)logσlogC(μ,σ,a,b)].

Critical points (including any global minima) are found where either σ=0 (a special case I will ignore here) or the gradient vanishes. Using subscripts to denote derivatives, we may formally compute the gradient and write the likelihood equations as

0=Λμ=i[fμ(xiμσ)f(xiμσ)Cμ(μ,σ,a,b)C(μ,σ,a,b)]0=Λσ=i[fσ(xiμσ)σ2f(xiμσ)1σCσ(μ,σ,a,b)C(μ,σ,a,b)]

Because a and b are fixed, drop them from the notation and write nCμ(μ,σ,a,b)/C(μ,σ,a,b) as A(μ,σ) and nCσ(μ,σ,a,b)/C(μ,σ,a,b) as B(μ,σ). (With no truncation, both functions would be identically zero.) Separating the terms involving the data from the rest gives

A(μ,σ)=ifμ(xiμσ)f(xiμσ)σ2B(μ,σ)nσ=ifσ(xiμσ)f(xiμσ)

By comparing these to the no-truncation situation it is evident that

  • Any sufficient statistics for the original problem are sufficient for the truncated problem (because the right hand sides have not changed).

  • Our ability to find closed-form solutions relies on the tractability of A and B. If these do not involve μ and σ in simple ways, we cannot hope to obtain closed-form solutions in general.

For the case of a normal family, C(μ,σ,a,b) of course is given by the cumulative normal PDF, which is a difference of error functions: there is no chance that a closed-form solution can be obtained in general. However, there are only two sufficient statistics (the sample mean and variance will do) and the CDF is as smooth as can be, so numerical solutions will be relatively easy to obtain.

whuber
źródło
Thanks a lot for this very detailed answer! I'm not sure I get what fμ, fσ , Cμ, and Cσ are, could you define them? Also, it's obvious but to be precise maybe you could say that your expression for the pdf is for x[a,b] (and the pdf is zero outside of that). Thanks again!
a3nm
1
The usual longer notation is Cμ=μC(μ,σ,a,b), etc: as announced, it is a derivative. I will make the second change you suggest because it's an important clarification, thanks.
whuber
Also, since your answer is more general than the one I expected, I edited my question to insist less on the case of normal distributions. Thanks again for your effort.
a3nm
1
It was easier to explain at this level of generality compared to focusing on the Normal distributions! Computing the derivatives and showing the precise form of the CDF are unnecessary distractions (although useful when you start actually coding the numerical solution).
whuber
1
Thanks for fixing! You missed one of them; could you review my edit?
a3nm