Załóżmy, że mamy losową zmienną . Jeśli jest parametrem prawdziwym, funkcja prawdopodobieństwa powinna być zmaksymalizowana, a pochodna równa zero. Jest to podstawowa zasada leżąca u podstaw estymatora maksymalnego prawdopodobieństwa.
Jak rozumiem, informacje Fishera są zdefiniowane jako
Zatem jeśli jest prawdziwym parametrem, . Ale jeśli nie jest prawdziwym parametrem, będziemy mieli większą ilość informacji Fishera.
moje pytania
- Czy informacje Fishera mierzą „błąd” danego MLE? Innymi słowy, czy istnienie pozytywnych informacji Fishera nie sugeruje, że mój MLE nie może być idealny?
- Czym różni się ta definicja „informacji” od definicji stosowanej przez Shannona? Dlaczego nazywamy to informacją?
bayesian
maximum-likelihood
likelihood
intuition
fisher-information
Stan Shunpike
źródło
źródło
Odpowiedzi:
Próbuję uzupełnić inne odpowiedzi ... Jakimi informacjami są informacje Fishera? Zacznij od funkcji loglikelihood jako funkcji for , przestrzeni parametrów. Zakładając pewne warunki regularności, których tutaj nie omawiamy, mamy (napiszemy pochodne w odniesieniu do parametru jako kropki, jak tutaj). Wariacją jest informacja Fishera θ θ ∈ Θ E ∂
Jak możemy to interpretować? jest informacją o prawdopodobieństwie parametru z próbki. Można to naprawdę zinterpretować tylko w sensie względnym, na przykład gdy używamy go do porównywania prawdopodobieństwa dwóch różnych możliwych wartości parametrów za pomocą testu współczynnika prawdopodobieństwa . Tempo zmian prawdopodobieństwa logicznego jest funkcją wyniku mówi nam, jak szybko zmienia się prawdopodobieństwo, a jego wariancja jak bardzo zmienia się to od próbki do próbki, przy danym parametrze wartość, powiedz . Równanie (co jest naprawdę zaskakujące!) θ ℓ ( θ 0 ) - ℓ ( θ 1 ) ˙ ℓ ( θ ) I ( θ ) θ 0 I ( θ ) = - E θ ¨ ℓ ( θ ) θ 0 ˙ ℓ ( θ ) ∣ θ = θ 0 θ θ 0ℓ(θ) θ ℓ(θ0)−ℓ(θ1) ℓ˙(θ) I(θ) θ0
Więc jaka jest funkcja prawdopodobieństwa? Zwykle myślimy o modelu statystycznym jako o rodzinie rozkładów prawdopodobieństwa dla danych , indeksowanych przez parametr jakiś element w przestrzeni parametrów . Uważamy ten model za prawdziwy, jeśli istnieje jakaś wartość tak że dane faktycznie mają rozkład prawdopodobieństwa . Otrzymujemy więc model statystyczny, osadzając prawdziwy rozkład prawdopodobieństwa generujący dane{f(x;θ),θ∈Θ} x θ Θ θ0∈Θ x f(x;θ0) f(x;θ0) w rodzinie rozkładów prawdopodobieństwa. Ale jasne jest, że takie osadzenie można wykonać na wiele różnych sposobów, a każde takie osadzenie będzie „prawdziwym” modelem i dadzą różne funkcje prawdopodobieństwa. I bez takiego osadzenia nie ma funkcji wiarygodności. Wydaje się, że naprawdę potrzebujemy pomocy, pewnych zasad, jak mądrze wybrać osadzenie!
Co to znaczy? Oznacza to, że wybór funkcji wiarygodności mówi nam, jak oczekiwalibyśmy zmiany danych, gdyby prawda nieco się zmieniła. Ale tak naprawdę nie można tego zweryfikować na podstawie danych, ponieważ dane dostarczają tylko informacji o prawdziwej funkcji modelu która faktycznie wygenerowała dane, a nie nic o wszystkich innych elementach wybranego modelu. W ten sposób widzimy, że wybór funkcji prawdopodobieństwa jest podobny do wyboru wcześniejszego w analizie bayesowskiej, wprowadza on do analizy informacje niebędące danymi. Spójrzmy na to w prostym (nieco sztucznym) przykładzie i spójrzmy na efekt osadzenia w modelu na różne sposoby.f(x;θ0) f(x;θ0)
Załóżmy, że są oznaczone jako . To jest prawdziwa dystrybucja generująca dane. Teraz osadzimy to w modelu na dwa różne sposoby: model A i model B. możesz sprawdzić, czy to zbiega się z .X1,…,Xn N(μ=10,σ2=1)
Funkcje loglikelihood stają się
Funkcje punktacji: (pochodne loglikelihood): a krzywizny więc informacje Fishera naprawdę zależą od osadzenia. Teraz obliczamy informacje Fishera na prawdziwej wartości , więc informacje Fishera dotyczące parametru są nieco większe w modelu B.
To pokazuje, że w pewnym sensie informacja Fishera mówi nam, jak szybko zmieniłaby się informacja z danych o parametrze , gdyby parametr rządzący zmienił się w sposób postulowany przez osadzenie w rodzinie modeli . Wyjaśnienie wyższych informacji w modelu B jest takie, że nasza rodzina modeli B postuluje, że jeśli oczekiwanie wzrosłoby, to również wariancja wzrosła . Aby w modelu B wariancja próbki zawierała również informacje o , czego nie zrobi w modelu A.μ
Ten przykład pokazuje również, że naprawdę potrzebujemy teorii, aby pomóc nam w konstruowaniu rodzin modeli.
źródło
Pomyślmy o funkcji ujemnego prawdopodobieństwa logarytmu . Wynik ujemny to jego gradient w stosunku do wartości parametru. Przy prawdziwym parametrze wynik wynosi zero. W przeciwnym razie podaje kierunek w kierunku minimum (lub w przypadku niewypukłego , punktu siodłowego lub lokalnego minimum lub maksimum).ℓ ℓℓ ℓ ℓ
Informacja Fishera mierzy krzywiznę wokół jeśli dane następują . Innymi słowy, mówi ci, w jakim stopniu poruszenie parametru wpłynęłoby na twoje prawdopodobieństwo dziennika.θ θℓ θ θ
Pomyśl, że miałeś duży model z milionami parametrów. I miałeś mały napęd na kciuk, na którym możesz przechowywać swój model. W jaki sposób należy ustalić priorytet liczby bitów każdego parametru do zapisania? Prawidłowa odpowiedź to przydzielenie bitów zgodnie z informacjami Fishera (pisał o tym Rissanen). Jeśli informacja Fishera parametru wynosi zero, parametr ten nie ma znaczenia.
Nazywamy to „informacją”, ponieważ informacja Fishera mierzy, ile ten parametr mówi nam o danych.
Potoczny sposób myślenia o tym jest następujący: załóżmy, że parametry prowadzą samochód, a dane znajdują się na tylnym siedzeniu, poprawiając kierowcę. Drażniącymi danymi jest informacja Fishera. Jeśli dane pozwalają kierowcy jechać, informacja Fishera wynosi zero; jeśli dane ciągle wprowadzają poprawki, są duże. W tym sensie informacja Fishera to ilość informacji przechodzących od danych do parametrów.
Zastanów się, co się stanie, jeśli zwiększysz czułość kierownicy. Jest to równoważne z reparametryzacją. W takim przypadku dane nie chcą być tak głośne z obawy przed nadsterownością samochodu. Ten rodzaj reparametryzacji zmniejsza informację Fishera.
źródło
Uzupełnienie miłej odpowiedzi @ NeilG (+1) i odpowiedź na konkretne pytania:
Odwrotnością informacji Fishera jest minimalna wariancja obiektywnego estymatora ( związana z Cramér – Rao ). W tym sensie matryca informacji wskazuje, ile informacji o szacowanych współczynnikach zawiera dane. Przeciwnie, entropia Shannona została zaczerpnięta z termodynamiki. Odnosi zawartość informacyjną określonej wartości zmiennej jako gdzie jest prawdopodobieństwem, że zmienna przyjmuje wartość. Oba są pomiarami tego, jak „informacyjna” jest zmienna. W pierwszym przypadku jednak oceniasz te informacje pod względem precyzji, zaś w drugim przypadku pod względem nieporządku; różne strony, ta sama moneta! :REp–p⋅log2(p) p
Reasumując: Odwrotność macierzy informacji Fishera, oceniłem przy wartościach estymatora ML, jest asymptotyczną lub przybliżoną macierzą kowariancji. Ponieważ wartości estymatora ML znajdują się w lokalnym minimum w formie graficznej, informacje Fishera pokazują, jak głębokie jest to minimum i kto dużo porusza się wokół niego. Znalazłem ten artykuł Lutwaka i in. w sprawie rozszerzenia informacji Fishera i nierówności Stama - pouczająca lektura na ten temat. Artykuły w Wikipedii na temat wskaźników informacyjnych Fishera oraz rozbieżności Jensen – Shannon również są na początek.I
źródło