Różnice między odległością Bhattacharyya a dywergencją KL

33

Szukam intuicyjnego wyjaśnienia następujących pytań:

W statystyce i teorii informacji, jaka jest różnica między odległością Bhattaczarji a dywergencją KL, jako miary różnicy między dwoma dyskretnymi rozkładami prawdopodobieństwa?

Czy nie mają absolutnie żadnych zależności i mierzą odległość między dwoma rozkładami prawdopodobieństwa w zupełnie inny sposób?

JewelSue
źródło

Odpowiedzi:

36

Współczynnik Bhattacharyya jest zdefiniowana jako i mogą być włączone w odległości jak który nazywa się odległością Hellingera . Związek między tą odległością Hellingera a dywergencją Kullbacka-Leiblera to

DB(p,q)=p(x)q(x)dx
dH(p,q)
dH(p,q)={1DB(p,q)}1/2
dKL(pq)2dH2(p,q)=2{1DB(p,q)}.

Nie jest to jednak pytanie: jeśli odległość Bhattacharyya jest zdefiniowana jako

dB(p,q)=deflogDB(p,q),
to
dB(p,q)=logDB(p,q)=logp(x)q(x)dx=deflogh(x)dx=logh(x)p(x)p(x)dxlog{h(x)p(x)}p(x)dx=12log{h2(x)p2(x)}p(x)dx=12log{q(x)p(x)}p(x)dx=12dKL(pq)
Stąd nierówność między te dwie odległości to
dKL(pq)2dB(p,q).
Można się zatem zastanawiać, czy ta nierówność wynika z pierwszej. Zdarza się wręcz przeciwnie: ponieważ
log(x)1x0x1,
wprowadź opis zdjęcia tutaj

mamy pełne zamówienie

dKL(pq)2dB(p,q)2dH(p,q)2.
Xi'an
źródło
2
Znakomity! To wyjaśnienie powinno być tym, którego szukam z niecierpliwością. Jeszcze jedno ostatnie pytanie: w jakim przypadku (lub jakiego rodzaju P i Q) nierówność stanie się równa?
JewelSue,
1
Biorąc pod uwagę, że funkcja jest ściśle wypukła, zakładam, że jedynym przypadkiem równości jest sytuacja, gdy stosunek jest stały w . log()p(x)/q(x)x
Xi'an
5
Jedynym przypadkiem, gdy jest stała w jest . p(x)/q(x)xp=q
Xi'an
8

Nie znam żadnej wyraźnej relacji między nimi, ale postanowiłem szybko ich poklepać, aby zobaczyć, co mogę znaleźć. Więc to nie jest duża odpowiedź, ale bardziej interesujący punkt.

Dla uproszczenia, popracujmy nad dyskretnymi rozkładami. Możemy zapisać odległość BC jako

dBC(p,q)=lnx(p(x)q(x))12

i rozbieżność KL jako

dKL(p,q)=xp(x)lnp(x)q(x)

Teraz nie możemy wcisnąć dziennika do sumy na odległość , więc spróbujmy wyciągnąć dziennik na zewnątrz rozbieżności :BCKL

dKL(p,q)=lnx(q(x)p(x))p(x)

Rozważmy ich zachowanie, gdy jest ustalone, jako rozkład równomierny na możliwości:pn

dKL(p,q)=lnnln(xq(x))1ndBC(p,q)=ln1nlnxq(x)

Po lewej mamy log czegoś podobnego w formie do średniej geometrycznej . Po prawej stronie mamy coś podobnego do logarytmu średniej arytmetycznej . Jak powiedziałem, nie jest to duża odpowiedź, ale myślę, że daje to intuicyjną intuicję, w jaki sposób odległość BC i dywergencja KL reagują na odchylenia między i .pq

Andy Jones
źródło