Dlaczego dokładnie wykorzystano zaobserwowane informacje Fishera?

17

W standardowym ustawieniu maksymalnego prawdopodobieństwa (np. Próbka Y1,,Yn z pewnego rozkładu o gęstości )), aw przypadku poprawnie określonego modelu, informacje Fishera podaje:fy(y|θ0

I(θ)=Eθ0[2θ2lnfy(θ)]

gdzie oczekiwane jest rzeczywiste zagęszczenie, które wygenerowało dane. Czytałem, że zaobserwowałem informację Fishera

J^(θ)=2θ2lnfy(θ)

jest używana głównie, ponieważ całka zaangażowana w obliczanie (oczekiwanej) informacji Fisher może w niektórych przypadkach być niewykonalna. To, co mnie dezorientuje, to fakt, że nawet jeśli całka jest wykonalna, należy przyjąć oczekiwania w odniesieniu do prawdziwego modelu, który obejmuje nieznaną wartość parametru . Jeśli tak jest w istocie wydaje się, że bez znajomości nie jest możliwe obliczenie . Czy to prawda?θ0θ0I

użytkownik2249626
źródło

Odpowiedzi:

13

Masz tutaj cztery liczby: prawdziwy parametr , spójne oszacowanie , oczekiwane informacje w i obserwowane informacje w . Ilości te są równoważne tylko asymptotycznie, ale zazwyczaj tak się je stosuje.θ0θ^I(θ)θJ(θ)θ

  1. Obserwowane informacje zbieżny w prawdopodobieństwie z oczekiwanymi informacjami gdy jest próbką id z . Tutaj wskazuje oczekiwanie w / r / t rozkładu indeksowanego przez : . Ta zbieżność obowiązuje z powodu prawa wielkich liczb, więc założenie, że jest tutaj kluczowe.I(θ0)=Eθ0[2

    J(θ0)=1Ni=1N2θ02lnf(yi|θ0)
    I(θ0)=Eθ0[2θ02lnf(y|θ0)]
    Yf(θ0)Eθ0(x)θ0xfa(x|θ0)rexYfa(θ0)
  2. Kiedy masz oszacowanie które jest zbieżne w prawdopodobieństwie z prawdziwym parametrem (tzn. Jest spójne), możesz zastąpić go dowolnym miejscem, w którym widzisz powyżej, głównie z powodu ciągłego twierdzenia o odwzorowaniu , i wszystkie zbieżności nadal się utrzymują.θ^θ0θ0

Właściwie wydaje się to nieco subtelne .

Uwaga

Jak można się domyślać, obserwowane informacje są zazwyczaj łatwiejsze do pracy, ponieważ różnicowanie jest łatwiejsze niż integracja, a być może już je oceniłeś podczas jakiejś optymalizacji numerycznej. W niektórych okolicznościach (rozkład normalny) będą one takie same.

Artykuł „Ocena dokładności estymatora maksymalnego prawdopodobieństwa: obserwowane i oczekiwane informacje Fishera” autorstwa Efron i Hinkleya (1978) przemawia na korzyść zaobserwowanych informacji dla próbek skończonych.

Andrew M.
źródło
4

Było kilka badań symulacyjnych, które wydają się wspierać obserwacje teoretyczne Efrona i Hinkleya (wspomniane w odpowiedzi Andrew), oto jedno, które znam od razu: Maldonado, G. i Greenland, S. (1994). Porównanie wydajności przedziałów ufności opartych na modelu, gdy poprawna forma modelu jest nieznana. Epidemiology, 5, 171–182. Nie widziałem żadnych sprzecznych badań. Interesujące jest to, że standardowe pakiety GLM, o których wiem, używają oczekiwanych informacji do obliczania odstępów Walda. Oczywiście nie stanowi to problemu, gdy (jak w GLM liniowych w parametrze naturalnym) zaobserwowane i oczekiwane matryce informacji są równe.

Sander Greenland
źródło