Związek między miernikiem Fishera a względną entropią

20

Czy ktoś może udowodnić następujący związek między wskaźnikiem informacji Fishera a względną entropią (lub dywergencją KL) w czysto matematyczny, rygorystyczny sposób?

D(p(,a+da)p(,a))=12gi,jdaidaj+(O(da3)
gdzie a=(a1,,an),da=(da1,,dan) ,
gi,j=i(logp(x;a))j(logp(x;a)) p(x;a) dx
i gi,jdaidaj:=i,jgi,jdaidaj jest konwencją sumowania Einsteina.

Znalazłem powyższe na ładnym blogu Johna Baeza, gdzie Vasileios Anagnostopoulos mówi o tym w komentarzach.

Kumara
źródło
1
Drogi Kumara: Dla wyjaśnienia pomogłoby to lepiej wyjaśnić twoją notację, a konkretnie znaczenie . Myślę też, że w twoim wyrażeniu brakuje stałego współczynnika przed pierwszym wyrazem prawej strony równania wyświetlania. Zauważ, że to, co sam Kullback nazwał dywergencją (używając notacji ) jest symetryczną wersją tego, co jest znane, zwaną dywergencją KL, tj. . Rozbieżność KL oznaczono w pismach Kullbacka. To tłumaczy również współczynnik . Twoje zdrowie. gi,j1/2J(,)J(p,q)=D(pq)+D(qp)I(,)1/2
kardynał

Odpowiedzi:

19

W 1946 r. Geofizyk i statystyki bayesowskie Harold Jeffreys wprowadzili to, co dziś nazywamy rozbieżnością Kullbacka-Leiblera, i odkryli, że dla dwóch dystrybucji, które są „nieskończenie blisko” (miejmy nadzieję, że chłopaki Math SE tego nie widzą ;-) możemy napisać ich rozbieżność Kullbacka-Leiblera jako postać kwadratowa, której współczynniki są podane przez elementy macierzy informacji Fishera. Zinterpretował tę kwadratową formę jako element długości rozmaitości Riemanniana, przy czym informacja Fishera odgrywa rolę metryki Riemanniana. Na podstawie tej geometrii modelu statystycznego wyliczył wcześniejszy Jeffreysa jako miarę naturalnie indukowaną przez metrykę Riemanniana, a miara ta może być interpretowana jako samoistnie jednorodny rozkład na rozmaitości, chociaż generalnie nie jest to miara skończona.

Aby napisać dokładny dowód, musisz dostrzec wszystkie warunki prawidłowości i zadbać o porządek terminów błędów w rozszerzeniach Taylora. Oto krótki szkic argumentu.

Symetryczna rozbieżność Kullbacka-Leiblera między dwoma gęstościami f i g jest zdefiniowana jako

D[f,g]=(f(x)g(x))log(f(x)g(x))dx.

Jeśli mamy rodzinę gęstości sparametryzowaną przez θ=(θ1,,θk) , to

D[p(θ),p(θ+Δθ)]=(p(x,θ)p(xθ+Δθ))log(p(xθ)p(xθ+Δθ))dx,
w którymΔθ=(Δθ1,,Δθk) . Wprowadzenie zapisu
Δp(xθ)=p(xθ)p(xθ+Δθ),
jakaś prosta algebra daje
D[p(θ),p(θ+Δθ)]=Δp(xθ)p(xθ)log(1+Δp(xθ)p(xθ))p(xθ)dx.
Używając rozszerzenia Taylora dla logarytmu naturalnego, mamy
log(1+Δp(xθ)p(xθ))Δp(xθ)p(xθ),
a zatem
re[p(θ),p(θ+Δθ)](Δp(xθ)p(xθ))2)p(xθ)rex.
Ale
Δp(xθ)p(xθ)1p(xθ)ja=1kp(xθ)θjaΔθja=ja=1klogp(xθ)θjaΔθja.
Stąd
re[p(θ),p(θ+Δθ)]ja,jot=1ksoljajotΔθjaΔθjot,
w którym
soljajot=logp(xθ)θjalogp(xθ)θjotp(xθ)rex.

To jest oryginalny papier:

Jeffreys, H. (1946). Niezmienna forma dla wcześniejszego prawdopodobieństwa w problemach z oszacowaniem. Proc. Royal Soc. z Londynu, seria A, 186, 453–461.

Zen
źródło
1
Dziękuję bardzo za miłe pisanie. Byłoby miło, jeśli możesz pomóc to jak dobrze.
Kumara
Tak, słusznie powiedziałeś. Muszę wyjść z tej „pułapki abstrakcji”.
Kumara,
@zen Używasz rozszerzenia logarytmu Taylora w ramach całki, dlaczego to jest poprawne?
Sus20200
1
Wydaje się kluczowe, aby zacząć od symetrycznej dywergencji KL, w przeciwieństwie do standardowej dywergencji KL. Artykuł w Wikipedii nie wspomina o symetrycznej wersji, więc może być niepoprawny. en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence
Dowódca chirurgiczny
11

Dowód zwykłej (niesymetrycznej) dywergencji KL

Odpowiedź Zen wykorzystuje symetryczną dywergencję KL, ale wynik ma również zwykłą formę, ponieważ staje się symetryczny dla nieskończenie bliskich rozkładów.

θ

re(pθ,pθ+reθ)=pθlogpθ-pθlogpθ+reθ .
=pθlogpθpθlogpθ= 0dθpθddθlogpθ= 0 12dθ2pθd2dθ2logpθ=pθ(ddθlogpθ)2 +O(dθ3)=12dθ2pθ(ddθlogpθ)2Fisher information+O(dθ3).
Assuming some regularities, I have used the two results:
:pθddθlogpθ=ddθpθ=ddθpθ=0,

:pθd2dθ2logpθ=pθddθ(1pθdpθdθ)=pθ[1pθd2pθdθ(1pθdpθdθ)2]=d2pθdθ2pθ(1pθdpθdθ)2=d2dθ2pθ= 0pθ(ddθlogpθ)2.
Abhranil Das
źródło
4

You can find a similar relationship (for a one-dimensional parameter) in equation (3) of the following paper

D. Guo (2009), Relative Entropy and Score Function: New Information–Estimation Relationships through Arbitrary Additive Perturbation, in Proc. IEEE International Symposium on Information Theory, 814–818. (stable link).

The authors refer to

S. Kullback, Information Theory and Statistics. New York: Dover, 1968.

for a proof of this result.

Primo Carnera
źródło
1
A multivariate version of equation (3) of that paper is proven in the cited Kullback text on pages 27-28. The constant 1/2 seems to have gone missing in the OP's question. :)
cardinal