Podstawowe pytanie o macierz informacji Fishera i związek z błędami hesyjskimi i standardowymi

54

Ok, to dość podstawowe pytanie, ale jestem trochę zdezorientowany. W mojej pracy magisterskiej piszę:

Błędy standardowe można znaleźć, obliczając odwrotność pierwiastka kwadratowego elementów ukośnych (obserwowanej) macierzy informacji Fishera:

sμ^,σ^2=1I(μ^,σ^2)
Ponieważ polecenie optymalizacji w R minimalizuje (zaobserwowaną) macierz informacji Fishera można znaleźć, obliczając odwrotność Hesji: logL
I(μ^,σ^2)=H1

Moje główne pytanie: czy to prawda, co mówię ?

Jestem trochę zdezorientowany, ponieważ w tym źródle na stronie 7 jest napisane:

matryca informacyjna jest ujemna od oczekiwanej wartości matrycy Heskiej

(Więc nie ma odwrotności do Hesji.)

Natomiast w tym źródle na stronie 7 (przypis 5) napisano:

Obserwowana informacja Fishera jest równa .(H)1

(Więc tutaj jest odwrotność.)

Jestem świadomy znaku minus i kiedy go używać, a kiedy nie, ale dlaczego jest różnica w przyjmowaniu odwrotności, czy nie?

Jen Bohold
źródło
@COOLSerdash Dzięki za poprawki i +1, ale to źródło: unc.edu/~monogan/computing/r/MLE_in_R.pdf strona 7 wyraźnie mówi, że zaobserwowana informacja Fishera jest równa INWERSJI Hessian?
Jen Bohold
@COOLSerdash Ok, możesz opublikować to jako odpowiedź.
Jen Bohold

Odpowiedzi:

75

Yudi Pawitan pisze w swojej książce We All Likelihood, że drugą pochodną prawdopodobieństwa logarytmu ocenianego przy szacunkach maksymalnego prawdopodobieństwa (MLE) są zaobserwowane informacje Fishera (patrz także ten dokument , strona 2). Właśnie tak większość algorytmów optymalizacyjnych lubi optimw Rzamian: Hesjan oceniany w MLE. Kiedy negatywlog-prawdopodobieństwo jest zminimalizowane, zwracany jest ujemny Hesjan. Jak słusznie wskazujesz, szacowane standardowe błędy MLE są pierwiastkami kwadratowymi diagonalnych elementów odwrotności obserwowanej macierzy informacji Fishera. Innymi słowy: Pierwiastki kwadratowe diagonalnych elementów odwrotności Hesji (lub ujemnego Hesji) są szacowanymi błędami standardowymi.

Podsumowanie

  • Ujemny Hesjan oceniany w MLE jest taki sam, jak obserwowana matryca informacji Fishera oceniana w MLE.
  • Odnośnie twojego głównego pytania: Nie, nie jest prawdą, że zaobserwowane informacje Fishera można znaleźć, odwracając (ujemny) Hesjan.
  • Odnośnie do twojego drugiego pytania: Odwrotność (ujemnego) Hesji jest estymatorem asymptotycznej macierzy kowariancji. Zatem pierwiastki kwadratowe diagonalnych elementów macierzy kowariancji są estymatorami błędów standardowych.
  • Wydaje mi się, że drugi dokument, do którego linkujesz, jest błędny.

Formalnie

Niech będzie funkcją logarytmu prawdopodobieństwa. Informacje Fisher matrycy jest symetryczna matrycę zawierającą dane: obserwowano informacje Fisher matryca jest po prostu , matryca informacji oceniana przy szacunkach maksymalnego prawdopodobieństwa (MLE). Hesjan jest zdefiniowany jako: l(θ) I(θ)(p×p)

I(θ)=2θiθjl(θ),    1i,jp
I(θ^ML)
H(θ)=2θiθjl(θ),    1i,jp
To nic innego jak macierz drugich pochodnych funkcji prawdopodobieństwa w odniesieniu do parametrów. Wynika z tego, że jeśli zminimalizujesz ujemne prawdopodobieństwo logarytmiczne, zwrócony Hesjan jest ekwiwalentem obserwowanej macierzy informacji Fishera, podczas gdy w przypadku maksymalizacji logarytmicznego prawdopodobieństwa, ujemny Hesjan jest matrycą obserwowanych informacji.

Ponadto odwrotność macierzy informacji Fishera jest estymatorem asymptotycznej macierzy kowariancji: Błędy standardowe to zatem pierwiastki kwadratowe diagonalnych elementów macierzy kowariancji. Dla asymptotycznego rozkładu oszacowania maksymalnego prawdopodobieństwa możemy napisać gdzie oznacza prawdziwą wartość parametru. Dlatego szacowany błąd standardowy szacunków maksymalnego prawdopodobieństwa podaje:

Var(θ^ML)=[I(θ^ML)]1
θ^MLaN(θ0,[I(θ^ML)]1)
θ0
SE(θ^ML)=1I(θ^ML)
COOLSerdash
źródło
1
powinien powiedzieć „gdy minimalne prawdopodobieństwo logarytmu jest zminimalizowane ” (lub zoptymalizowane ).
cmo,
8
(Oczekiwana) informacja Fishera to nazwa ; obserwowana (Fisher) informacja to po prostu , tak zwana nie dlatego, że jest oceniana przy oszacowaniu maksymalnego podobieństwa , ale ponieważ jest to funkcja obserwowanych danych, a nie średnia z możliwych obserwacji. Być może jest to zasłonięte przez znane przykłady rozważania wnioskowania na temat parametru kanonicznego w pełnej rodzinie wykładniczej, gdy . I(θ)=EI(θ)I(θ)θI(θ)=I(θ)
Scortchi - Przywróć Monikę
6

Oszacowanie funkcji prawdopodobieństwa wymaga dwuetapowego procesu.

Najpierw deklaruje się funkcję wiarygodności dziennika. następnie optymalizuje się funkcje wiarygodności dziennika. W porządku.

Pisząc funkcje logarytmu wiarygodności w R, pytamy o (gdzie reprezentuje log - funkcję wiarygodności), ponieważ polecenie optymalizacyjne w R domyślnie minimalizuje funkcję. minimalizacja -l jest tym samym, co maksymalizacja l, co jest tym, czego chcemy.1ll

Obserwowana macierz informacji Fishera jest równa . powodem, dla którego nie musimy pomnożyć hassian przez -1, jest to, że cała ocena została wykonana w kategoriach -1 krotności prawdopodobieństwa logarytmu. Oznacza to, że hessian wytworzony przez optym jest już pomnożony przez -1(H)1

Adelino Martins
źródło