Nie podoba mi się informacja Fishera, co mierzy i jak jest pomocna. Również związek z Cramer-Rao nie jest dla mnie oczywisty.
Czy ktoś może podać intuicyjne wyjaśnienie tych pojęć?
estimation
intuition
fisher-information
Nieskończoność
źródło
źródło
Odpowiedzi:
Wyjaśniam tutaj, dlaczego asymptotyczna wariancja estymatora maksymalnego prawdopodobieństwa stanowi dolną granicę Cramer-Rao. Mamy nadzieję, że zapewni to pewien wgląd w znaczenie informacji Fishera.
Wnioskowanie statystyczne przebiega przy użyciu funkcji prawdopodobieństwa którą konstruujesz na podstawie danych. Oszacowanie punktu to wartość, która maksymalizuje . Estymator jest zmienną losową, ale pomaga zrozumieć, że funkcja prawdopodobieństwa jest „krzywą losową”.L(θ) θ^ L(θ) θ^ L(θ)
Zakładamy tutaj dane id pobrane z rozkładu i definiujemy prawdopodobieństwof(x|θ)
Parametr ma właściwość, która maksymalizuje wartość „prawdziwego” prawdopodobieństwa, . Jednak „zaobserwowana” funkcja prawdopodobieństwa która jest zbudowana z danych, jest nieco „wyłączona” z prawdziwego prawdopodobieństwa. Jednak, jak można sobie wyobrazić, wraz ze wzrostem wielkości próby „obserwowane” prawdopodobieństwo zbliża się do kształtu krzywej prawdziwego prawdopodobieństwa. To samo dotyczy pochodnej prawdopodobieństwa w odniesieniu do parametru, funkcji score . (Krótko mówiąc, informacja Fishera określa, jak szybko obserwowana funkcja punktacji zbiega się z kształtem funkcji prawdziwej punktacji.θ EL(θ) L(θ) ∂L/∂θ
Przy dużej wielkości próby zakładamy, że nasze oszacowanie maksymalnego prawdopodobieństwa jest bardzo zbliżone do . Powiększamy niewielką okolicę wokół i aby funkcja prawdopodobieństwa była „lokalnie kwadratowa”.θ^ θ θ θ^
Tam, jest punktem, w którym funkcja score przecina początek. W tym małym regionie funkcję punktacji traktujemy jako linię , jedną o nachyleniu i losowym punkcie przecięcia w . Wiemy z równania, że linia toθ^ ∂L/∂θ a b θ
lub
Ze spójności estymatora MLE wiemy to
w limicie.
Dlatego asymptotycznie
Okazuje się, że nachylenie zmienia się znacznie mniej niż punkt przecięcia i asymptotycznie możemy traktować funkcję score jako posiadającą stałe nachylenie w małym sąsiedztwie wokół . W ten sposób możemy pisaćθ
Jakie są zatem wartości i ? Okazuje się, że ze względu na cudowny matematyczny zbieg okoliczności, są one tej samej wielkości (modulo znak minus), informacja Fishera.a nVar(b)
A zatem,
źródło
Jednym ze sposobów, w jaki rozumiem informacje dotyczące rybaków, jest następująca definicja:
Informacje Fishera można zapisać w ten sposób, ilekroć gęstość jest dwa razy różna. Jeśli przestrzeń nie zależy od parametru , możemy użyć wzoru na całkę Leibniza, aby pokazać, że pierwszy składnik jest zerowy (rozróżnij obie strony dwa razy i dostajesz zero), a drugi termin to definicja „standardowa”. Zajmę się przypadkiem, gdy pierwszy termin wynosi zero. Przypadki, gdy nie jest to zero, nie są zbyt przydatne do zrozumienia Informacji Fisher.f(x|θ) X θ ∫Xf(x|θ)dx=1
Teraz, gdy robisz oszacowanie maksymalnego prawdopodobieństwa (wstaw „warunki regularności” tutaj), ustaw
I rozwiązać dla . Tak więc druga pochodna mówi, jak szybko zmienia się gradient iw pewnym sensie „jak daleko” może odejść od MLE bez dokonywania znaczącej zmiany po prawej stronie powyższego równania. Innym sposobem, w jaki możesz o tym myśleć, jest wyobrażenie sobie „góry” narysowanej na papierze - jest to funkcja logarytmu prawdopodobieństwa. Rozwiązanie równania MLE powyżej informuje, gdzie znajduje się szczyt tej góry, w zależności od losowej zmiennej . Druga pochodna mówi ci, jak stroma jest góra - co w pewnym sensie mówi, jak łatwo jest znaleźć szczyt góry. Informacje Fishera pochodzą z wzięcia oczekiwanej stromości szczytu, dlatego mają nieco interpretację „danych wstępnych”.θ θ x
Jedną z rzeczy, które wciąż mnie interesują, jest to, jak strome jest prawdopodobieństwo logarytmiczne, a nie jak strome jest jakaś inna monotoniczna funkcja prawdopodobieństwa (być może związana z „właściwymi” funkcjami punktacji w teorii decyzji? A może z aksjomatami spójności entropii ?).
Informacje Fishera „pojawiają się” również w wielu analizach asymptotycznych z powodu tak zwanego przybliżenia Laplace'a. Wynika to głównie z faktu, że każda funkcja z „dobrze zaokrąglonym” pojedynczym maksymalnym podbiciem do wyższej i wyższej mocy przechodzi w funkcję Gaussa (podobnie do twierdzenia o centralnym, ale nieco więcej generał). Kiedy masz dużą próbkę, jesteś skutecznie w tej pozycji i możesz napisać:exp(−ax2)
A kiedy Taylor zwiększy prawdopodobieństwo dziennika dotyczące MLE:
Co stanowi zwykle dobre przybliżenie zastąpienia sumy całką, ale wymaga to niezależności danych. Tak więc dla dużych niezależnych próbek (podanych ) można zobaczyć, że informacja Fishera jest zmienną MLE dla różnych wartości MLE.θ
źródło
To najbardziej intuicyjny artykuł, jaki do tej pory widziałem:
Dolna granica Cramér-Rao dotycząca wariancji: „Zasada nieoznaczoności” Adama i Ewy autorstwa Michaela R. Powersa, Journal of Risk Finance, t. 7, nr 3, 2006
Granicę tłumaczy analogia Adama i Ewy w rajskim ogrodzie rzucających monetą, aby zobaczyć, kto może zjeść owoc, a następnie zadają sobie pytanie, jak duża jest próbka, aby osiągnąć określony poziom dokładności w ich oszacowaniu, a następnie odkrywają tę granicę ...
Ładna historia z głębokim przesłaniem o rzeczywistości.
źródło
Chociaż powyższe wyjaśnienia są bardzo interesujące i podobało mi się ich przeglądanie, uważam, że charakter Dolnej Granicy Cramer-Rao najlepiej wytłumaczył mi geometrycznie. Ta intuicja jest streszczeniem koncepcji elips koncentracyjnych z rozdziału 6 książki Scharf'a na temat statystycznego przetwarzania sygnałów .
Zastanów się nad dowolnym obiektywnym estymatorem . Dodatkowo załóżmy, że estymator ma rozkład Gaussa z kowariancją . W tych warunkach rozkład jest proporcjonalny do:θ θ^ Σ θ^
Pomyśl teraz o wykresach konturowych tego rozkładu dla . Wszelkie górne ograniczenie prawdopodobieństwa (tj. ) spowoduje elipsoidę wyśrodkowaną na o stałym promieniu . Łatwo wykazać, że istnieje promień jeden do jednego między promieniem elipsoidy a pożądanym prawdopodobieństwem . Innymi słowy, jest zbliżony do w elipsoidzie określonej przez promień z prawdopodobieństwemθ∈R2 θ^ ∫f(θ^)dθ≤Pr θ r r Pr θ^ θ r Pr . Ta elipsoida nazywana jest elipsoidą koncentracji.
Biorąc pod uwagę powyższy opis, możemy powiedzieć o CRLB. Spośród wszystkich obiektywnych estymatorów, CRLB reprezentuje estymator z kowariancją który dla ustalonego prawdopodobieństwa „bliskości” (jak zdefiniowano powyżej) ma najmniejszy elipsoida stężenia. Poniższy rysunek przedstawia ilustrację 2D (inspirowaną ilustracją w książce Scharf ).θ^crlb Σcrlb Pr
źródło