Obserwowana matryca informacji jest spójnym estymatorem oczekiwanej matrycy informacji?

16

Próbuję udowodnić, że obserwowana matryca informacji oceniana przy mało spójnym estymatorze maksymalnego prawdopodobieństwa (MLE), jest słabo spójnym estymatorem oczekiwanej matrycy informacji. Jest to często cytowany wynik, ale nikt nie podaje odniesienia ani dowodu (wyczerpałem się, myślę, że pierwsze 20 stron wyników Google i podręczników statystyk)!

Używając słabo spójnej sekwencji MLE, mogę użyć słabego prawa wielkich liczb (WLLN) i twierdzenia o ciągłym odwzorowaniu, aby uzyskać pożądany wynik. Uważam jednak, że nie można zastosować twierdzenia o ciągłym odwzorowaniu. Zamiast tego uważam, że należy zastosować jednolite prawo dużych liczb (ULLN). Czy ktoś wie o referencji, która ma na to dowód? Mam próbę na ULLN, ale na razie pomijam ją dla zwięzłości.

Przepraszam za długość tego pytania, ale należy wprowadzić notację. Notacja jest następująca (mój dowód znajduje się na końcu).

Załóżmy, że mamy próbkę losowych zmiennych o gęstości , gdzie (tutaj to po prostu ogólna zmienna losowa o takiej samej gęstości, jak dowolny z członków próby). Wektor jest wektorem wszystkich wektorów przykładowych, w których dla wszystkich . Prawdziwa wartość parametru dla gęstości to , a jest słabo spójnym estymatorem maksymalnego prawdopodobieństwa (MLE) dla $\{Y_1,\ldots,Y_N\}$ $f(\tilde{Y}|\theta)$ $\theta\in\Theta\subseteq\mathbb{R}^{k}$ $\tilde{Y}$ $Y=(Y_1,\ldots,Y_N)^{T}$ $Y_{i}\in\mathbb{R}^{n}$ $i=1,\ldots,N$ $\theta_{0}$ $\hat{\theta}_{N}(Y)$ $\theta_{0}$ . Z zastrzeżeniem warunków prawidłowości matrycę informacji Fisher można zapisać jako

I (θ) = - E_{θ} [H_{θ} (\log f (\tilde{Y} | θ)]

$I(\theta)=-E_\theta \left[H_{\theta}(\log f(\tilde{Y}|\theta)\right]$

gdzie ${H}_{\theta}$ jest macierzą Hesji. Odpowiednikiem próbki jest

I_{N} (θ) = \sum_{i = 1}^{N} I_{y_{i}} (θ),

$I_N(\theta)=\sum_{i=1}^N I_{y_i}(\theta),$

gdzie $I_{y_i}=-E_\theta \left[H_{\theta}(\log f(Y_{i}|\theta)\right]$ . Obserwowana macierz informacji to;

$J(\theta) = -H_\theta(\log f(y|\theta)$ ,

(niektóre osoby żądają, aby macierz była oceniana w $\hat{\theta}$ ale niektórzy nie). Przykładowa matryca informacji obserwowana to;

$J_N(\theta)=\sum_{i=1}^N J_{y_i}(\theta)$

gdzie $J_{y_i}(\theta)=-H_\theta(\log f(y_{i}|\theta)$ .

Potrafię udowodnić zbieżność prawdopodobieństwa estymatora do , ale nie do . Oto mój dowód do tej pory; $N^{-1}J_N(\theta)$ $I(\theta)$ $N^{-1}J_{N}(\hat{\theta}_N(Y))$ $I(\theta_{0})$

Teraz jest elementem z , dla dowolnego . Jeśli próbka ma tę samą wartość, wówczas przy słabym prawie dużych liczb (WLLN) średnia prawdopodobieństwa tych sum jest zbieżna z prawdopodobieństwem do . Zatem dla wszystkich , a więc . Niestety nie możemy po prostu zawrzeć $(J_{N}(\theta))_{rs}=-\sum_{i=1}^N (H_\theta(\log f(Y_i|\theta))_{rs}$ $(r,s)$ $J_N(\theta)$ $r,s=1,\ldots,k$ $-E_{\theta}[(H_\theta(\log f(Y_{1}|\theta))_{rs}]=(I_{Y_1}(\theta))_{rs}=(I(\theta))_{rs}$ $N^{-1}(J_N(\theta))_{rs}\overset{P}{\rightarrow}(I(\theta))_{rs}$ $r,s=1,\ldots,k$ $N^{-1}J_N(\theta)\overset{P}{\rightarrow}I(\theta)$ $N^{-1}J_{N}(\hat{\theta}_N(Y))\overset{P}{\rightarrow}I(\theta_0)$ używając twierdzenia o ciągłym odwzorowaniu, ponieważ nie jest tą samą funkcją co . $N^{-1}J_{N}(\cdot)$ $I(\cdot)$

Każda pomoc w tym zakresie byłaby bardzo mile widziana.

maximum-likelihood expected-value asymptotics information fisher-information dandar
źródło

Powiązane: Współczynnik konwergencji empirycznej matrycy informacji Fishera .

czy moja odpowiedź poniżej adresu odpowiada na twoje pytanie?

Dapz

1

@Dapz Proszę przyjąć moje szczere przeprosiny za nie odpowiadanie wam do tej pory - popełniłem błąd, zakładając, że nikt nie odpowie. Dziękuję za twoją odpowiedź poniżej - głosowałem za nią, ponieważ widzę, że jest najbardziej przydatna, ale muszę poświęcić trochę czasu na jej rozważenie. Dziękuję za poświęcony czas, a wkrótce odpowiem na Twój post poniżej.

dandar

7

$\newcommand{\convp}{\stackrel{P}{\longrightarrow}}$

Myślę, że jednym z możliwych podejść jest bezpośrednie ustanowienie pewnego rodzaju jednolitego prawa wielkich liczb.

Oto kolejna.

Chcemy pokazać, że . $\frac{J^N(\theta_{MLE})}{N} \convp I(\theta^*)$

(Jak już powiedziałeś, według WLLN . Ale to nie pomaga nam bezpośrednio.) $\frac{J^N(\theta)}{N} \convp I(\theta)$

Jedną z możliwych strategii jest wykazanie, że

| I (θ^{*}) - \frac{J^{N} (θ^{*})}{N} | \overset{P}{⟶} 0.

$|I(\theta^*) - \frac{J^N(\theta^*)}{N}| \convp 0.$

i

| \frac{J^{N} (θ_{M L E})}{N} - \frac{J^{N} (θ^{*})}{N} | \overset{P}{⟶} 0

$|\frac{J^N(\theta_{MLE})}{N} - \frac{J^N(\theta^*)}{N}| \convp 0$

Jeśli oba wyniki są prawdziwe, możemy je połączyć, aby uzyskać

| I (θ^{*}) - \frac{J^{N} (θ_{M L E})}{N} | \overset{P}{⟶} 0,

$|I(\theta^*) - \frac{J^N(\theta_{MLE})}{N}| \convp 0,$

co dokładnie chcemy pokazać.

Pierwsze równanie wynika ze słabego prawa wielkich liczb.

Drugi prawie wynika z twierdzenia o ciągłym odwzorowywaniu, ale niestety nasza funkcja , że chcemy zastosować CMT do zmian za pomocą : nasze to tak naprawdę . Dlatego nie możemy korzystać z CMT. $g()$ $N$ $g$ $g_N(\theta) := \frac{J^N(\theta)}{N}$

(Komentarz: Jeśli przeanalizujesz dowód CMT na Wikipedii, zauważ, że zestaw który zdefiniowali dla nas w swoim dowodzie, zależy teraz również od . Zasadniczo potrzebujemy pewnego rodzaju nieciągłości w nad naszymi funkcjami .) $B_\delta$ $n$ $\theta^*$ $g_N(\theta)$

Na szczęście, jeśli założymy, że rodzina jest stochastycznie nierównomiernie ciągłe w , a następnie natychmiast wynika, że dla , $\mathcal{G} = \{g_N | N=1,2,\ldots\}$ $\theta^*$ $\theta_{MLE} \convp \theta^*$

\begin{aligned} | g_{n} (θ_{M L E}) - g_{n} (θ^{*}) | \overset{P}{⟶} 0. \end{aligned}

$\begin{align*} |g_n(\theta_{MLE}) - g_n(\theta^*)| \convp 0. \end{align*}$

(Zobacz tutaj: http://www.cs.berkeley.edu/~jordan/courses/210B-spring07/lectures/stat210b_lecture_12.pdf w celu uzyskania definicji stochastycznej równości ciągłości w oraz dowodu powyższego faktu. ) $\theta^*$

Dlatego, zakładając, że jest SE w , pożądany wynik jest prawdziwy, a empiryczna informacja Fishera zbiega się z informacją Fishera dla populacji. $\mathcal{G}$ $\theta^*$

Kluczowym pytaniem jest oczywiście, jakie warunki należy nałożyć na aby uzyskać SE? Wygląda na to, że jednym ze sposobów jest ustanowienie warunku Lipshitza dla całej klasy funkcji (patrz tutaj: http://econ.duke.edu/uploads/media_items/uniform-convergence-and-stochastic -equicontinuity.original.pdf ). $\mathcal{G}$ $\mathcal{G}$

Dapz
źródło

1

Powyższa odpowiedź przy użyciu stochastycznej równości ciągłości działa bardzo dobrze, ale tutaj odpowiadam na moje własne pytanie, stosując jednolite prawo dużych liczb, aby pokazać, że zaobserwowana matryca informacji jest bardzo spójnym estymatorem macierzy informacji, tj. jeśli podłączymy mocno spójną sekwencję estymatorów. Mam nadzieję, że jest poprawny we wszystkich szczegółach. $N^{-1}J_{N}(\hat{\theta}_{N}(Y))\overset{a.s.}{\longrightarrow}I(\theta_{0})$

Użyjemy aby być zestawem indeksów, i tymczasowo przyjmijmy zapis , aby jasno powiedzieć o zależności od losowego wektora . Będziemy również pracować elementarnie z i , , dla tej dyskusji. Funkcja ma wartość rzeczywistą na zbiorze i przypuszczamy, że jest to Lebesgue mierzalne dla każdego $I_{N}=\{1,2,...,N\}$ $J(\tilde{Y},\theta):=J(\theta)$ $J(\theta)$ $\tilde{Y}$ $(J(\tilde{Y},\theta))_{rs}$ $(J_{N}(\theta))_{rs}=\sum\nolimits_{i=1}^{N}(J(Y_{i},\theta))_{rs}$ $r,s=1,...,k$ $(J(\cdot,\theta))_{rs}$ $\mathbb{R}^{n}\times\Theta^{\circ}$ $\theta\in\Theta^{\circ}$ . Jednolite (silne) prawo dużej liczby określa zestaw warunków, w których

$\underset{\theta\in\Theta}{\text{sup}}\left|N^{-1}(J_{N}(\theta))_{rs}-E_{\theta}\left[(J(Y_{1},\theta))_{rs}\right]\right|=\nonumber\\ \hspace{60pt}\underset{\theta\in\Theta}{\text{sup}}\left|N^{-1}\sum\nolimits_{i=1}^{N}(J(Y_{i},\theta))_{rs}-(I(\theta))_{rs}\right|\overset{a.s}{\longrightarrow}0\hspace{100pt}(1)$

Warunki, które muszą być spełnione, aby (1) wstrzymywały się to (a) to zestaw zwarty; (b) jest funkcją ciągłą w z prawdopodobieństwem 1; (c) dla każdego jest zdominowany przez funkcję , tj. ; oraz (d) dla każdego ;. Warunki te pochodzą od Jennricha (1969, Theorem 2). $\Theta^{\circ}$ $(J(\tilde{Y},\theta))_{rs}$ $\Theta^{\circ}$ $\theta\in \Theta^{\circ}$ $(J(\tilde{Y},\theta))_{rs}$ $h(\tilde{Y})$ $|(J(\tilde{Y},\theta))_{rs}|<h(\tilde{Y})$ $\theta\in \Theta^{\circ}$ $E_{\theta}[h(\tilde{Y})]<\infty$

Teraz dla każdego , i oczywista jest następująca nierówność $y_{i}\in\mathbb{R}^{n}$ $i\in I_{N}$ $\theta'\in S\subseteq\Theta^{\circ}$

$\left|N^{-1}\sum\nolimits_{i=1}^{N}(J(y_{i},\theta'))_{rs}-(I(\theta'))_{rs}\right|\leq\underset{\theta\in S}{\text{sup}}\left|N^{-1}\sum\nolimits_{i=1}^{N}(J(y_{i},\theta))_{rs}-(I(\theta))_{rs}\right|.\hspace{50pt}(2)$

Załóżmy, że jest bardzo spójną sekwencją estymatorów dla i pozwól bądź otwartą piłką w o promieniu jako , i załóżmy, że jest zwarty. Następnie, ponieważ dla wystarczająco duże, mamy dla dostatecznie dużej . W połączeniu z (2) oznacza to $\{\hat{\theta}_{N}(Y)\}$ $\theta_{0}$ $\Theta_{N_{1}}=B_{\delta_{N_{1}}}(\theta_{0})\subseteq K\subseteq \Theta^{\circ}$ $\mathbb{R}^{k}$ $\delta_{N_{1}}\rightarrow 0$ $N_{1}\rightarrow\infty$ $K$ $\hat{\theta}_{N}(Y)\in \Theta_{N_{1}}$ $N$ $P[\underset{N}{\text{lim}}\{\hat{\theta}_{N}(Y)\in\Theta_{N_{1}}\}]=1$ $N$

$P\left[\underset{N\rightarrow\infty}{\text{lim}}\left\{\left|N^{-1}\sum\nolimits_{i=1}^{N}(J(Y_{i},\hat{\theta}_{N}(Y)))_{rs}-(I(\hat{\theta}_{N}(Y)))_{rs}\right|\leq\right.\right.\nonumber\\ \hspace{40pt}\left.\left.\underset{\theta\in\Theta_{N_{1}}}{\text{sup}}\left|N^{-1}\sum\nolimits_{i=1}^{N}(J(Y_{i},\theta))_{rs}-(I(\theta))_{rs}\right|\right\}\right]=1.\hspace{100pt}(3)$

Teraz implikuje warunki (a) - (d) Jennricha (1969, Twierdzenie 2) mające zastosowanie do . Zatem (1) i (3) implikują $\Theta_{N_{1}}\subseteq\Theta^{\circ}$ $\Theta_{N_{1}}$

$P\left[\underset{N\rightarrow\infty}{\text{lim}}\left\{\left|N^{-1}\sum\nolimits_{i=1}^{N}(J(Y_{i},\hat{\theta}_{N}(Y)))_{rs}-(I(\hat{\theta}_{N}(Y)))_{rs}\right|=0\right\}\right]=1.\hspace{100pt}(4)$

Ponieważ to (4) oznacza, że . Zauważ, że (3) zawiera jakkolwiek małe , a zatem wynik w (4) jest niezależny od wyboru innego niż musi być wybrany tak, aby . Ten wynik dotyczy wszystkich , a więc pod względem macierzy mamy . $(I(\hat{\theta}_{N}(Y)))_{rs}\overset{a.s.}{\longrightarrow}I(\theta_{0})$ $N^{-1}(J_{N}(\hat{\theta}_{N}(Y)))_{rs}\overset{a.s.}{\longrightarrow}(I(\theta_{0}))_{rs}$ $\Theta_{N_{1}}$ $N_{1}$ $N_{1}$ $\Theta_{N_{1}}\subseteq \Theta^{\circ}$ $r,s=1,...,k$ $N^{-1}J_{N}(\hat{\theta}_{N}(Y))\overset{a.s.}{\longrightarrow}I(\theta_{0})$

dandar
źródło

Obserwowana matryca informacji jest spójnym estymatorem oczekiwanej matrycy informacji?

Odpowiedzi: