Rodzina wykładnicza: obserwowane a oczekiwane wystarczające statystyki

10

Moje pytanie wynika z przeczytania „Szacowania rozkładu Dirichleta” Minki , który stwierdza bez dowodu w kontekście wyprowadzenia estymatora największego prawdopodobieństwa dla rozkładu Dirichleta na podstawie obserwacji losowych wektorów:

Jak zawsze w przypadku rodziny wykładniczej, gdy gradient wynosi zero, oczekiwane wystarczające statystyki są równe zaobserwowanym wystarczającym statystykom.

Nie widziałem oszacowania maksymalnego prawdopodobieństwa w wykładniczej rodzinie przedstawionej w ten sposób, ani nie znalazłem żadnych odpowiednich wyjaśnień w moich poszukiwaniach. Czy ktoś może zaoferować wgląd w związek między zaobserwowanymi a oczekiwanymi wystarczającymi statystykami i być może pomóc zrozumieć szacunek maksymalnego prawdopodobieństwa jako minimalizujący różnicę?

Ben Bray
źródło

Odpowiedzi:

11

Jest to zwykłe twierdzenie o rodzinie wykładniczej, ale moim zdaniem większość razy jest wyrażane w sposób, który może dezorientować mniej doświadczonego czytelnika. Ponieważ, biorąc pod uwagę wartość nominalną, można to interpretować jako „jeśli nasza zmienna losowa podąża za rozkładem w rodzinie wykładniczej, to jeśli weźmiemy próbkę i wstawimy ją do wystarczającej statystyki, uzyskamy prawdziwą oczekiwaną wartość statystyki „. Gdyby tak było ... Co więcej, nie uwzględnia wielkości próbki, co może powodować dalsze zamieszanie.

Wykładnicza funkcja gęstości to

(1)fX(x)=h(x)eη(θ)T(x)eA(θ)

gdzie T(x) jest wystarczającą statystyką.

Ponieważ jest to gęstość, musi zintegrować się z jednością, więc (Sx jest wsparciem X)

(2)S.xh(x)miη(θ)T.(x)mi-ZA(θ)rex=1

Równ. (2)) trzyma dla wszystkich θ abyśmy mogli rozróżnić obie strony pod tym względem:

(3)θS.xh(x)miη(θ)T.(x)mi-ZA(θ)rex=(1)θ=0

Otrzymujemy zamieniając kolejność różnicowania i integracji

(4)S.xθ(h(x)miη(θ)T.(x)mi-ZA(θ))rex=0

Przeprowadzając zróżnicowanie, które mamy

(5)θ(h(x)miη(θ)T.(x)mi-ZA(θ))=faX(x)[T.(x)η(θ)-ZA(θ)]

Wstawianie (5) w (4) dostajemy

S.xfaX(x)[T.(x)η(θ)-ZA(θ)]rex=0

(6)η(θ)mi[T.(X)]-ZA(θ)=0mi[T.(X)]=ZA(θ)η(θ)

Teraz pytamy: po lewej stronie (6)jest liczbą rzeczywistą. Zatem prawa strona musi być także liczbą rzeczywistą, a nie funkcją . Dlatego należy to oceniać w konkretny sposóbθi powinna być „prawdziwa” θ, w przeciwnym razie po lewej stronie nie mielibyśmy prawdziwej oczekiwanej wartości T.(X). Aby to podkreślić, oznaczamy prawdziwą wartość przezθ0i piszemy ponownie (6) tak jak

(6a)miθ0[T.(X)]=ZA(θ)η(θ)|θ=θ0

Przechodzimy teraz do oszacowania maksymalnego prawdopodobieństwa . Prawdopodobieństwo dziennika dla próbki wielkościn jest

L.(θx)=ja=1nlnh(xja)+η(θ)ja=1nT.(xja)-nZA(θ)

Ustawienie jego pochodnej względem θ równy 0 otrzymujemy MLE

(7)θ^(x):1nja=1nT.(xja)=ZA(θ)η(θ)|θ=θ^(x)

Porównać (7) z (6za). Prawa strona nie jest równa, ponieważ nie możemy argumentować, że estymator MLE trafił w prawdziwą wartość. Więc nie są też lewe strony. Ale pamiętaj o tym.2)trzyma dla wszystkich θ i tak dla θ^również. Więc kroki w równaniu.3),4,5,6 można wziąć w odniesieniu do θ^ i żebyśmy mogli napisać eq. 6za dla θ^:

(6b)miθ^(x)[T.(X)]=ZA(θ)η(θ)|θ=θ^(x)

co w połączeniu z (7), prowadzi nas do ważnej relacji

miθ^(x)[T.(X)]=1nja=1nT.(xja)

tak naprawdę mówi badane twierdzenie: oczekiwana wartość wystarczającej statystyki w MLE dla nieznanych parametrów (innymi słowy, wartość pierwszego nieprzetworzonego momentu rozkładu, który otrzymamy, jeśli użyjemyθ^(x) zamiast θ), równa się (i nie jest to tylko przybliżone) średniej wystarczającej statystyki obliczonej na podstawie próbyx.

Co więcej, tylko jeśli wielkość próby wynosi n=1 wtedy moglibyśmy dokładnie powiedzieć: „oczekiwana wartość wystarczającej statystyki pod MLE równa się wystarczającej statystyce”.

Alecos Papadopoulos
źródło
Czy mógłby Pan wyjaśnić, dlaczego przejście z 6a na 6b jest ważne, proszę?
Theoden
1
@ Theoden Pomiędzy eq. (2)) i (3)) Piszę „eq. (2))trzyma dla wszystkich θ„- a zatem dla θ^również. Więc wszystkie kroki w eq.3),4,5,6 można wziąć w odniesieniu do θ^. Powtórzyłem tę uwagę w tekście dla jasności.
Alecos Papadopoulos
@AlecosPapadopoulos twój dowód poniżej wydaje się sugerować, że to, co mówisz na początku - „jeśli nasza zmienna losowa podąża za rozkładem w rodzinie wykładniczej, to jeśli weźmiemy próbkę i wstawimy ją do wystarczającej statystyki, uzyskamy prawdziwą oczekiwaną wartość statystyki „jest prawdą. Mam na myśli, że zawsze mogę to zrobić dla (2), zastępując to obserwowaną wystarczającą statystyką i uzyskać wynik. Czego tu brakuje? Nie do końca to rozumiem.
user10024395,
@ user136266 Prawda oczekiwana wartość statystyki to6za, a aby zostać obliczonym, należy znać parametr nieznany z założenia θ. To, co możemy faktycznie obliczyć, to6bktóra jest oczekiwaną wartością statystyki przy założeniu, że nasze oszacowanie punktowe osiągnęło wartość prawdziwą .
Alecos Papadopoulos,
1
Czy mógłbyś wyjaśnić, dlaczego możemy wymieniać kolejność różnicowania i integracji w eq. (3) proszę?
Markus777,