Obserwowana matryca informacji jest spójnym estymatorem oczekiwanej matrycy informacji?

16

Próbuję udowodnić, że obserwowana matryca informacji oceniana przy mało spójnym estymatorze maksymalnego prawdopodobieństwa (MLE), jest słabo spójnym estymatorem oczekiwanej matrycy informacji. Jest to często cytowany wynik, ale nikt nie podaje odniesienia ani dowodu (wyczerpałem się, myślę, że pierwsze 20 stron wyników Google i podręczników statystyk)!

Używając słabo spójnej sekwencji MLE, mogę użyć słabego prawa wielkich liczb (WLLN) i twierdzenia o ciągłym odwzorowaniu, aby uzyskać pożądany wynik. Uważam jednak, że nie można zastosować twierdzenia o ciągłym odwzorowaniu. Zamiast tego uważam, że należy zastosować jednolite prawo dużych liczb (ULLN). Czy ktoś wie o referencji, która ma na to dowód? Mam próbę na ULLN, ale na razie pomijam ją dla zwięzłości.

Przepraszam za długość tego pytania, ale należy wprowadzić notację. Notacja jest następująca (mój dowód znajduje się na końcu).

Załóżmy, że mamy próbkę losowych zmiennych o gęstości , gdzie (tutaj to po prostu ogólna zmienna losowa o takiej samej gęstości, jak dowolny z członków próby). Wektor jest wektorem wszystkich wektorów przykładowych, w których dla wszystkich . Prawdziwa wartość parametru dla gęstości to , a \ hat {\ theta} _ {N} (Y) jest słabo spójnym estymatorem maksymalnego prawdopodobieństwa (MLE) dla \ theta_ {0}{Y1,,YN}f(Y~|θ)θΘRkY~Y=(Y1,,YN)TYiRni=1,,Nθ N ( Y ) θ 0θ0θ^N(Y)θ0. Z zastrzeżeniem warunków prawidłowości matrycę informacji Fisher można zapisać jako

I(θ)=Eθ[Hθ(logf(Y~|θ)]

gdzie Hθ jest macierzą Hesji. Odpowiednikiem próbki jest

IN(θ)=i=1NIyi(θ),

gdzie Iyi=Eθ[Hθ(logf(Yi|θ)] . Obserwowana macierz informacji to;

J(θ)=Hθ(logf(y|θ) ,

(niektóre osoby żądają, aby macierz była oceniana w θ^ ale niektórzy nie). Przykładowa matryca informacji obserwowana to;

JN(θ)=i=1NJyi(θ)

gdzie Jyi(θ)=Hθ(logf(yi|θ) .

Potrafię udowodnić zbieżność prawdopodobieństwa estymatora do , ale nie do . Oto mój dowód do tej pory;I ( θ ) N - 1 J N ( θ N ( Y ) ) I ( θ 0 )N1JN(θ)I(θ)N1JN(θ^N(Y))I(θ0)

Teraz jest elementem z , dla dowolnego . Jeśli próbka ma tę samą wartość, wówczas przy słabym prawie dużych liczb (WLLN) średnia prawdopodobieństwa tych sum jest zbieżna z prawdopodobieństwem do . Zatem dla wszystkich , a więc . Niestety nie możemy po prostu zawrzeć ( r , s ) J N ( θ ) r , s = 1 , , k - E θ [ ( H θ ( log f ((JN(θ))rs=i=1N(Hθ(logf(Yi|θ))rs(r,s)JN(θ)r,s=1,,k N - 1 ( J N ( θ ) ) r s P ( I ( θ ) ) r s r , s = 1 , , k NEθ[(Hθ(logf(Y1|θ))rs]=(IY1(θ))rs=(I(θ))rsN1(JN(θ))rsP(I(θ))rsr,s=1,,k N - 1 J N ( θ N (Y)) P I( θ 0 ) N - 1 J N ()I()N1JN(θ)PI(θ)N1JN(θ^N(Y))PI(θ0)używając twierdzenia o ciągłym odwzorowaniu, ponieważ nie jest tą samą funkcją co .N1JN()I()

Każda pomoc w tym zakresie byłaby bardzo mile widziana.

dandar
źródło
czy moja odpowiedź poniżej adresu odpowiada na twoje pytanie?
Dapz
1
@Dapz Proszę przyjąć moje szczere przeprosiny za nie odpowiadanie wam do tej pory - popełniłem błąd, zakładając, że nikt nie odpowie. Dziękuję za twoją odpowiedź poniżej - głosowałem za nią, ponieważ widzę, że jest najbardziej przydatna, ale muszę poświęcić trochę czasu na jej rozważenie. Dziękuję za poświęcony czas, a wkrótce odpowiem na Twój post poniżej.
dandar

Odpowiedzi:

7

Myślę, że jednym z możliwych podejść jest bezpośrednie ustanowienie pewnego rodzaju jednolitego prawa wielkich liczb.

Oto kolejna.

Chcemy pokazać, że .JN(θMLE)NPI(θ)

(Jak już powiedziałeś, według WLLN . Ale to nie pomaga nam bezpośrednio.)JN(θ)NPI(θ)

Jedną z możliwych strategii jest wykazanie, że

|I(θ)JN(θ)N|P0.

i

|JN(θMLE)NJN(θ)N|P0

Jeśli oba wyniki są prawdziwe, możemy je połączyć, aby uzyskać

|I(θ)JN(θMLE)N|P0,

co dokładnie chcemy pokazać.

Pierwsze równanie wynika ze słabego prawa wielkich liczb.

Drugi prawie wynika z twierdzenia o ciągłym odwzorowywaniu, ale niestety nasza funkcja , że chcemy zastosować CMT do zmian za pomocą : nasze to tak naprawdę . Dlatego nie możemy korzystać z CMT.g()NggN(θ):=JN(θ)N

(Komentarz: Jeśli przeanalizujesz dowód CMT na Wikipedii, zauważ, że zestaw który zdefiniowali dla nas w swoim dowodzie, zależy teraz również od . Zasadniczo potrzebujemy pewnego rodzaju nieciągłości w nad naszymi funkcjami .)BδnθgN(θ)

Na szczęście, jeśli założymy, że rodzina jest stochastycznie nierównomiernie ciągłe w , a następnie natychmiast wynika, że ​​dla , G={gN|N=1,2,}θθMLEPθ

|gn(θMLE)gn(θ)|P0.

(Zobacz tutaj: http://www.cs.berkeley.edu/~jordan/courses/210B-spring07/lectures/stat210b_lecture_12.pdf w celu uzyskania definicji stochastycznej równości ciągłości w oraz dowodu powyższego faktu. )θ

Dlatego, zakładając, że jest SE w , pożądany wynik jest prawdziwy, a empiryczna informacja Fishera zbiega się z informacją Fishera dla populacji.Gθ

Kluczowym pytaniem jest oczywiście, jakie warunki należy nałożyć na aby uzyskać SE? Wygląda na to, że jednym ze sposobów jest ustanowienie warunku Lipshitza dla całej klasy funkcji (patrz tutaj: http://econ.duke.edu/uploads/media_items/uniform-convergence-and-stochastic -equicontinuity.original.pdf ).GG

Dapz
źródło
1

Powyższa odpowiedź przy użyciu stochastycznej równości ciągłości działa bardzo dobrze, ale tutaj odpowiadam na moje własne pytanie, stosując jednolite prawo dużych liczb, aby pokazać, że zaobserwowana matryca informacji jest bardzo spójnym estymatorem macierzy informacji, tj. jeśli podłączymy mocno spójną sekwencję estymatorów. Mam nadzieję, że jest poprawny we wszystkich szczegółach.N1JN(θ^N(Y))a.s.I(θ0)

Użyjemy aby być zestawem indeksów, i tymczasowo przyjmijmy zapis , aby jasno powiedzieć o zależności od losowego wektora . Będziemy również pracować elementarnie z i , , dla tej dyskusji. Funkcja ma wartość rzeczywistą na zbiorze i przypuszczamy, że jest to Lebesgue mierzalne dla każdegoIN={1,2,...,N}J(Y~,θ):=J(θ)J(θ)Y~(J(Y~,θ))rs(JN(θ))rs=i=1N(J(Yi,θ))rsr,s=1,...,k(J(,θ))rsRn×ΘθΘ. Jednolite (silne) prawo dużej liczby określa zestaw warunków, w których

supθΘ|N1(JN(θ))rsEθ[(J(Y1,θ))rs]|=supθΘ|N1i=1N(J(Yi,θ))rs(I(θ))rs|a.s0(1)

Warunki, które muszą być spełnione, aby (1) wstrzymywały się to (a) to zestaw zwarty; (b) jest funkcją ciągłą w z prawdopodobieństwem 1; (c) dla każdego jest zdominowany przez funkcję , tj. ; oraz (d) dla każdego ;. Warunki te pochodzą od Jennricha (1969, Theorem 2).Θ(J(Y~,θ))rsΘθΘ (J(Y~,θ))rsh(Y~)|(J(Y~,θ))rs|<h(Y~)θΘ Eθ[h(Y~)]<

Teraz dla każdego , i oczywista jest następująca nierównośćyiRniINθSΘ

|N1i=1N(J(yi,θ))rs(I(θ))rs|supθS|N1i=1N(J(yi,θ))rs(I(θ))rs|.(2)

Załóżmy, że jest bardzo spójną sekwencją estymatorów dla i pozwól bądź otwartą piłką w o promieniu jako , i załóżmy, że jest zwarty. Następnie, ponieważ dla wystarczająco duże, mamy dla dostatecznie dużej . W połączeniu z (2) oznacza to{θ^N(Y)}θ0ΘN1=BδN1(θ0)KΘRkδN10N1Kθ^N(Y)ΘN1NP[limN{θ^N(Y)ΘN1}]=1N

P[limN{|N1i=1N(J(Yi,θ^N(Y)))rs(I(θ^N(Y)))rs|supθΘN1|N1i=1N(J(Yi,θ))rs(I(θ))rs|}]=1.(3)

Teraz implikuje warunki (a) - (d) Jennricha (1969, Twierdzenie 2) mające zastosowanie do . Zatem (1) i (3) implikująΘN1ΘΘN1

P[limN{|N1i=1N(J(Yi,θ^N(Y)))rs(I(θ^N(Y)))rs|=0}]=1.(4)

Ponieważ to (4) oznacza, że . Zauważ, że (3) zawiera jakkolwiek małe , a zatem wynik w (4) jest niezależny od wyboru innego niż musi być wybrany tak, aby . Ten wynik dotyczy wszystkich , a więc pod względem macierzy mamy .(I(θ^N(Y)))rsa.s.I(θ0)N1(JN(θ^N(Y)))rsa.s.(I(θ0))rsΘN1N1N1ΘN1Θr,s=1,...,kN1JN(θ^N(Y))a.s.I(θ0)

dandar
źródło