Intuicyjne wyjaśnienie informacji Fisher i Cramer-Rao

59

Nie podoba mi się informacja Fishera, co mierzy i jak jest pomocna. Również związek z Cramer-Rao nie jest dla mnie oczywisty.

Czy ktoś może podać intuicyjne wyjaśnienie tych pojęć?

Nieskończoność
źródło
1
Czy w artykule w Wikipedii jest coś, co powoduje problemy? Mierzy ilość informacji, które niesie obserwowalna zmienna losowa o nieznanym parametrze od której zależy prawdopodobieństwo , a jej odwrotnością jest dolna granica Cramer-Rao od wariancji bezstronnego estymatora . XθXθ
Henry
2
Rozumiem to, ale nie czuję się z tym dobrze. Na przykład, co dokładnie oznacza tutaj „ilość informacji”. Dlaczego ujemne oczekiwanie kwadratu pochodnej cząstkowej gęstości mierzy tę informację? Skąd pochodzi to wyrażenie itp. Dlatego mam nadzieję, że uzyskam trochę intuicji.
Nieskończoność
@Infinity: Wynik jest proporcjonalnym tempem zmiany prawdopodobieństwa zaobserwowanych danych w miarę zmian parametru, a więc przydatny do wnioskowania. Fisher informuje o wariancji wyniku (zerowego). Tak więc matematycznie jest to oczekiwanie na kwadrat pierwszej pochodnej cząstkowej logarytmu gęstości, a więc jest ujemne na oczekiwanie na drugą pochodną cząstkową logarytmu gęstości.
Henry

Odpowiedzi:

32

Wyjaśniam tutaj, dlaczego asymptotyczna wariancja estymatora maksymalnego prawdopodobieństwa stanowi dolną granicę Cramer-Rao. Mamy nadzieję, że zapewni to pewien wgląd w znaczenie informacji Fishera.

Wnioskowanie statystyczne przebiega przy użyciu funkcji prawdopodobieństwa którą konstruujesz na podstawie danych. Oszacowanie punktu to wartość, która maksymalizuje . Estymator jest zmienną losową, ale pomaga zrozumieć, że funkcja prawdopodobieństwa jest „krzywą losową”.L(θ)θ^L(θ)θ^ L(θ)

Zakładamy tutaj dane id pobrane z rozkładu i definiujemy prawdopodobieństwo f(x|θ)

L(θ)=1ni=1nlogf(xi|θ)

Parametr ma właściwość, która maksymalizuje wartość „prawdziwego” prawdopodobieństwa, . Jednak „zaobserwowana” funkcja prawdopodobieństwa która jest zbudowana z danych, jest nieco „wyłączona” z prawdziwego prawdopodobieństwa. Jednak, jak można sobie wyobrazić, wraz ze wzrostem wielkości próby „obserwowane” prawdopodobieństwo zbliża się do kształtu krzywej prawdziwego prawdopodobieństwa. To samo dotyczy pochodnej prawdopodobieństwa w odniesieniu do parametru, funkcji score . (Krótko mówiąc, informacja Fishera określa, jak szybko obserwowana funkcja punktacji zbiega się z kształtem funkcji prawdziwej punktacji.θEL(θ)L(θ) L/θ

Przy dużej wielkości próby zakładamy, że nasze oszacowanie maksymalnego prawdopodobieństwa jest bardzo zbliżone do . Powiększamy niewielką okolicę wokół i aby funkcja prawdopodobieństwa była „lokalnie kwadratowa”.θ^θθθ^

Tam, jest punktem, w którym funkcja score przecina początek. W tym małym regionie funkcję punktacji traktujemy jako linię , jedną o nachyleniu i losowym punkcie przecięcia w . Wiemy z równania, że ​​linia toθ^ L/θabθ

a(θ^θ)+b=0

lub

θ^=θb/a.

Ze spójności estymatora MLE wiemy to

E(θ^)=θ

w limicie.

Dlatego asymptotycznie

nVar(θ^)=nVar(b/a)

Okazuje się, że nachylenie zmienia się znacznie mniej niż punkt przecięcia i asymptotycznie możemy traktować funkcję score jako posiadającą stałe nachylenie w małym sąsiedztwie wokół . W ten sposób możemy pisaćθ

nVar(θ^)=1a2nVar(b)

Jakie są zatem wartości i ? Okazuje się, że ze względu na cudowny matematyczny zbieg okoliczności, są one tej samej wielkości (modulo znak minus), informacja Fishera.anVar(b)

a=E[2Lθ2]=I(θ)

nVar(b)=nVar[Lθ]=I(θ)

A zatem,

nVar(θ^)=1a2nVar(b)=(1/I(θ)2)I(θ)=1/I(θ)
asymptotycznie : dolna granica Cramer-Rao. ( Innym zagadnieniem jest wykazanie, że jest dolną granicą wariancji obiektywnego estymatora).1/I(θ)
charles.y.zheng
źródło
2
Czy jest jakieś przedstawienie graficzne części, w której wspominasz, że funkcja prawdopodobieństwa jest lokalnie kwadratowa?
quirik
@ quirik, rozważ użycie rozszerzenia Taylora drugiego rzędu wokół theta_hat.
idnavid
@ charles.y.zheng To jedno z najciekawszych wyjaśnień sceny.
idnavid
13

Jednym ze sposobów, w jaki rozumiem informacje dotyczące rybaków, jest następująca definicja:

I(θ)=X2f(x|θ)θ2dxXf(x|θ)2θ2log[f(x|θ)]dx

Informacje Fishera można zapisać w ten sposób, ilekroć gęstość jest dwa razy różna. Jeśli przestrzeń nie zależy od parametru , możemy użyć wzoru na całkę Leibniza, aby pokazać, że pierwszy składnik jest zerowy (rozróżnij obie strony dwa razy i dostajesz zero), a drugi termin to definicja „standardowa”. Zajmę się przypadkiem, gdy pierwszy termin wynosi zero. Przypadki, gdy nie jest to zero, nie są zbyt przydatne do zrozumienia Informacji Fisher.f(x|θ)XθXf(x|θ)dx=1

Teraz, gdy robisz oszacowanie maksymalnego prawdopodobieństwa (wstaw „warunki regularności” tutaj), ustaw

θlog[f(x|θ)]=0

I rozwiązać dla . Tak więc druga pochodna mówi, jak szybko zmienia się gradient iw pewnym sensie „jak daleko” może odejść od MLE bez dokonywania znaczącej zmiany po prawej stronie powyższego równania. Innym sposobem, w jaki możesz o tym myśleć, jest wyobrażenie sobie „góry” narysowanej na papierze - jest to funkcja logarytmu prawdopodobieństwa. Rozwiązanie równania MLE powyżej informuje, gdzie znajduje się szczyt tej góry, w zależności od losowej zmiennej . Druga pochodna mówi ci, jak stroma jest góra - co w pewnym sensie mówi, jak łatwo jest znaleźć szczyt góry. Informacje Fishera pochodzą z wzięcia oczekiwanej stromości szczytu, dlatego mają nieco interpretację „danych wstępnych”.θθx

Jedną z rzeczy, które wciąż mnie interesują, jest to, jak strome jest prawdopodobieństwo logarytmiczne, a nie jak strome jest jakaś inna monotoniczna funkcja prawdopodobieństwa (być może związana z „właściwymi” funkcjami punktacji w teorii decyzji? A może z aksjomatami spójności entropii ?).

Informacje Fishera „pojawiają się” również w wielu analizach asymptotycznych z powodu tak zwanego przybliżenia Laplace'a. Wynika to głównie z faktu, że każda funkcja z „dobrze zaokrąglonym” pojedynczym maksymalnym podbiciem do wyższej i wyższej mocy przechodzi w funkcję Gaussa (podobnie do twierdzenia o centralnym, ale nieco więcej generał). Kiedy masz dużą próbkę, jesteś skutecznie w tej pozycji i możesz napisać:exp(ax2)

f(data|θ)=exp(log[f(data|θ)])

A kiedy Taylor zwiększy prawdopodobieństwo dziennika dotyczące MLE:

f(data|θ)[f(data|θ)]θ=θMLEexp(12[2θ2log[f(data|θ)]]θ=θMLE(θθMLE)2)
i pojawia się druga pochodna prawdopodobieństwa logarytmicznego (ale w postaci „zaobserwowanej” zamiast „oczekiwanej”). Zazwyczaj robi się to w celu dalszego przybliżenia:

2θ2log[f(data|θ)]=n(1ni=1n2θ2log[f(xi|θ)])nI(θ)

Co stanowi zwykle dobre przybliżenie zastąpienia sumy całką, ale wymaga to niezależności danych. Tak więc dla dużych niezależnych próbek (podanych ) można zobaczyć, że informacja Fishera jest zmienną MLE dla różnych wartości MLE.θ

prawdopodobieństwo prawdopodobieństwa
źródło
1
„Jedną z rzeczy, które wciąż mnie interesują, jest to, jak strome jest prawdopodobieństwo dziennika, a nie jak strome są inne monotoniczne funkcje prawdopodobieństwa”. Jestem pewien, że można wyprowadzić analogi do informacji Fishera w kategoriach innych przekształceń prawdopodobieństwa, ale wtedy nie dostalibyście tak fajnego wyrażenia dla dolnej granicy Cramer-Rao.
charles.y.zheng
2

To najbardziej intuicyjny artykuł, jaki do tej pory widziałem:

Dolna granica Cramér-Rao dotycząca wariancji: „Zasada nieoznaczoności” Adama i Ewy autorstwa Michaela R. Powersa, Journal of Risk Finance, t. 7, nr 3, 2006

Granicę tłumaczy analogia Adama i Ewy w rajskim ogrodzie rzucających monetą, aby zobaczyć, kto może zjeść owoc, a następnie zadają sobie pytanie, jak duża jest próbka, aby osiągnąć określony poziom dokładności w ich oszacowaniu, a następnie odkrywają tę granicę ...

Ładna historia z głębokim przesłaniem o rzeczywistości.

vonjd
źródło
6
Dziękujemy za opublikowanie tego odniesienia. Na koniec jednak byłem rozczarowany, gdy stwierdziłem, że to tak naprawdę nie wyjaśnia CRLB. Stwierdza to jedynie, nie dając żadnego wglądu w to, dlaczego jest to prawdą, i dostarcza tylko sugestywnego, ale ostatecznie pozbawionego znaczenia języka, takiego jak „wyciskanie informacji”, w celu wyjaśnienia tego.
whuber
@whuber: W porządku, zgadzam się, że może nurkować głębiej, a zakończenie jest trochę nagłe. Jednak w tym artykule podoba mi się to, że naprawdę wydaje się naturalne, że istnieje związek między wielkością próbki, średnią próbką, prawem dużych liczb i że wariancję próbki można zmniejszyć tylko do pewnego momentu (tj. Że musi być niektóre związane , co zdarza się wyżej). Wyjaśnia również, że nie jest to jakiś nieuchwytny wynik matematyczny, ale tak naprawdę stwierdzenie o granicach zdobywania wiedzy o rzeczywistości.
vonjd
2

Chociaż powyższe wyjaśnienia są bardzo interesujące i podobało mi się ich przeglądanie, uważam, że charakter Dolnej Granicy Cramer-Rao najlepiej wytłumaczył mi geometrycznie. Ta intuicja jest streszczeniem koncepcji elips koncentracyjnych z rozdziału 6 książki Scharf'a na temat statystycznego przetwarzania sygnałów .

Zastanów się nad dowolnym obiektywnym estymatorem . Dodatkowo załóżmy, że estymator ma rozkład Gaussa z kowariancją . W tych warunkach rozkład jest proporcjonalny do:θθ^Σθ^

f(θ^)exp(12(θ^θ)TΣ1(θ^θ)) .

Pomyśl teraz o wykresach konturowych tego rozkładu dla . Wszelkie górne ograniczenie prawdopodobieństwa (tj. ) spowoduje elipsoidę wyśrodkowaną na o stałym promieniu . Łatwo wykazać, że istnieje promień jeden do jednego między promieniem elipsoidy a pożądanym prawdopodobieństwem . Innymi słowy, jest zbliżony do w elipsoidzie określonej przez promień z prawdopodobieństwemθR2θ^f(θ^)dθPrθrrPrθ^θrPr. Ta elipsoida nazywana jest elipsoidą koncentracji.

Biorąc pod uwagę powyższy opis, możemy powiedzieć o CRLB. Spośród wszystkich obiektywnych estymatorów, CRLB reprezentuje estymator z kowariancją który dla ustalonego prawdopodobieństwa „bliskości” (jak zdefiniowano powyżej) ma najmniejszy elipsoida stężenia. Poniższy rysunek przedstawia ilustrację 2D (inspirowaną ilustracją w książce Scharf ).θ^crlbΣcrlbPr

Ilustracja 2D CRLB w kontekście obiektywnych estymatorów.

idnavid
źródło
2
Cóż, to jest cholernie świetne, szczególnie obraz, potrzebuje więcej pozytywnych opinii.
Astrid