Ok, to dość podstawowe pytanie, ale jestem trochę zdezorientowany. W mojej pracy magisterskiej piszę:
Błędy standardowe można znaleźć, obliczając odwrotność pierwiastka kwadratowego elementów ukośnych (obserwowanej) macierzy informacji Fishera:
Ponieważ polecenie optymalizacji w R minimalizuje (zaobserwowaną) macierz informacji Fishera można znaleźć, obliczając odwrotność Hesji:
Moje główne pytanie: czy to prawda, co mówię ?
Jestem trochę zdezorientowany, ponieważ w tym źródle na stronie 7 jest napisane:
matryca informacyjna jest ujemna od oczekiwanej wartości matrycy Heskiej
(Więc nie ma odwrotności do Hesji.)
Natomiast w tym źródle na stronie 7 (przypis 5) napisano:
Obserwowana informacja Fishera jest równa .
(Więc tutaj jest odwrotność.)
Jestem świadomy znaku minus i kiedy go używać, a kiedy nie, ale dlaczego jest różnica w przyjmowaniu odwrotności, czy nie?
maximum-likelihood
fisher-information
Jen Bohold
źródło
źródło
Odpowiedzi:
Yudi Pawitan pisze w swojej książce We All Likelihood, że drugą pochodną prawdopodobieństwa logarytmu ocenianego przy szacunkach maksymalnego prawdopodobieństwa (MLE) są zaobserwowane informacje Fishera (patrz także ten dokument , strona 2). Właśnie tak większość algorytmów optymalizacyjnych lubi
optim
wR
zamian: Hesjan oceniany w MLE. Kiedy negatywlog-prawdopodobieństwo jest zminimalizowane, zwracany jest ujemny Hesjan. Jak słusznie wskazujesz, szacowane standardowe błędy MLE są pierwiastkami kwadratowymi diagonalnych elementów odwrotności obserwowanej macierzy informacji Fishera. Innymi słowy: Pierwiastki kwadratowe diagonalnych elementów odwrotności Hesji (lub ujemnego Hesji) są szacowanymi błędami standardowymi.Podsumowanie
Formalnie
Niech będzie funkcją logarytmu prawdopodobieństwa. Informacje Fisher matrycy jest symetryczna matrycę zawierającą dane: obserwowano informacje Fisher matryca jest po prostu , matryca informacji oceniana przy szacunkach maksymalnego prawdopodobieństwa (MLE). Hesjan jest zdefiniowany jako:l(θ) I(θ) (p×p)
Ponadto odwrotność macierzy informacji Fishera jest estymatorem asymptotycznej macierzy kowariancji: Błędy standardowe to zatem pierwiastki kwadratowe diagonalnych elementów macierzy kowariancji. Dla asymptotycznego rozkładu oszacowania maksymalnego prawdopodobieństwa możemy napisać gdzie oznacza prawdziwą wartość parametru. Dlatego szacowany błąd standardowy szacunków maksymalnego prawdopodobieństwa podaje:
źródło
Oszacowanie funkcji prawdopodobieństwa wymaga dwuetapowego procesu.
Najpierw deklaruje się funkcję wiarygodności dziennika. następnie optymalizuje się funkcje wiarygodności dziennika. W porządku.
Pisząc funkcje logarytmu wiarygodności w R, pytamy o (gdzie reprezentuje log - funkcję wiarygodności), ponieważ polecenie optymalizacyjne w R domyślnie minimalizuje funkcję. minimalizacja -l jest tym samym, co maksymalizacja l, co jest tym, czego chcemy.−1∗l l
Obserwowana macierz informacji Fishera jest równa . powodem, dla którego nie musimy pomnożyć hassian przez -1, jest to, że cała ocena została wykonana w kategoriach -1 krotności prawdopodobieństwa logarytmu. Oznacza to, że hessian wytworzony przez optym jest już pomnożony przez -1(−H)−1
źródło