Różnice między odległością Bhattacharyya a dywergencją KL

33

Szukam intuicyjnego wyjaśnienia następujących pytań:

W statystyce i teorii informacji, jaka jest różnica między odległością Bhattaczarji a dywergencją KL, jako miary różnicy między dwoma dyskretnymi rozkładami prawdopodobieństwa?

Czy nie mają absolutnie żadnych zależności i mierzą odległość między dwoma rozkładami prawdopodobieństwa w zupełnie inny sposób?

mathematical-statistics information-theory kullback-leibler bhattacharyya JewelSue
źródło

36

Współczynnik Bhattacharyya jest zdefiniowana jako i mogą być włączone w odległości jak który nazywa się odległością Hellingera . Związek między tą odległością Hellingera a dywergencją Kullbacka-Leiblera to

D_{B} (p, q) = \int \sqrt{p (x) q (x)} d x

$D_B(p,q) = \int \sqrt{p(x)q(x)}\,\text{d}x$

d_{H} (p, q)

$d_H(p,q)$

d_{H} (p, q) = {1 - D_{B} (p, q)}^{1 / 2}

$d_H(p,q)=\{1-D_B(p,q)\}^{1/2}$

d_{K L} (p ‖ q) \geq 2 d_{H}^{2} (p, q) = 2 {1 - D_{B} (p, q)} .

$d_{KL}(p\|q) \geq 2 d_H^2(p,q) = 2 \{1-D_B(p,q)\}\,.$

Nie jest to jednak pytanie: jeśli odległość Bhattacharyya jest zdefiniowana jako

d_{B} (p, q) \overset{def}{=} - \log D_{B} (p, q),

$d_B(p,q)\stackrel{\text{def}}{=}-\log D_B(p,q)\,,$ to

\begin{aligned} d_{B} (p, q) = - \log D_{B} (p, q) & = - \log \int \sqrt{p (x) q (x)} d x \\ \overset{def}{=} - \log \int h (x) d x \\ = - \log \int \frac{h (x)}{p (x)} p (x) d x \\ \leq \int - \log {\frac{h (x)}{p (x)}} p (x) d x \\ = \int \frac{- 1}{2} \log {\frac{h^{2} (x)}{p^{2} (x)}} p (x) d x \\ = \int \frac{- 1}{2} \log {\frac{q (x)}{p (x)}} p (x) d x = \frac{1}{2} d_{K L} (p ‖ q) \end{aligned}

$\begin{align*}d_B(p,q)=-\log D_B(p,q)&=-\log \int \sqrt{p(x)q(x)}\,\text{d}x\\ &\stackrel{\text{def}}{=}-\log \int h(x)\,\text{d}x\\ &= -\log \int \frac{h(x)}{p(x)}\,p(x)\,\text{d}x\\ &\le \int -\log \left\{\frac{h(x)}{p(x)}\right\}\,p(x)\,\text{d}x\\ &= \int \frac{-1}{2}\log \left\{\frac{h^2(x)}{p^2(x)}\right\}\,p(x)\,\text{d}x\\ &= \int \frac{-1}{2}\log \left\{\frac{q(x)}{p(x)}\right\}\,p(x)\,\text{d}x= \frac{1}{2}d_{KL}(p\|q) \end{align*}$ Stąd nierówność między te dwie odległości to

d_{K L} (p ‖ q) \geq 2 d_{B} (p, q) .

${d_{KL}(p\|q)\ge 2d_B(p,q)\,.}$ Można się zatem zastanawiać, czy ta nierówność wynika z pierwszej. Zdarza się wręcz przeciwnie: ponieważ

- l o g (x) \geq 1 - x 0 \leq x \leq 1,

$-log(x)\ge 1-x\qquad\qquad 0\le x\le 1\,,$ wprowadź opis zdjęcia tutaj

mamy pełne zamówienie

d_{K L} (p ‖ q) \geq 2 d_{B} (p, q) \geq 2 d_{H} (p, q)^{2} .

${d_{KL}(p\|q)\ge 2d_B(p,q)\ge 2d_H(p,q)^2\,.}$

Xi'an
źródło

2

Znakomity! To wyjaśnienie powinno być tym, którego szukam z niecierpliwością. Jeszcze jedno ostatnie pytanie: w jakim przypadku (lub jakiego rodzaju P i Q) nierówność stanie się równa?

JewelSue,

1

Biorąc pod uwagę, że funkcja jest ściśle wypukła, zakładam, że jedynym przypadkiem równości jest sytuacja, gdy stosunek jest stały w .

- \log (\cdot)

$-\log(\cdot)$

p (x) / q (x)

$p(x)/q(x)$

x

$x$

Xi'an

5

Jedynym przypadkiem, gdy jest stała w jest .

p (x) / q (x)

$p(x)/q(x)$

x

$x$

p = q

$p=q$

Xi'an

8

Nie znam żadnej wyraźnej relacji między nimi, ale postanowiłem szybko ich poklepać, aby zobaczyć, co mogę znaleźć. Więc to nie jest duża odpowiedź, ale bardziej interesujący punkt.

Dla uproszczenia, popracujmy nad dyskretnymi rozkładami. Możemy zapisać odległość BC jako

d_{BC} (p, q) = - \ln \sum_{x} (p (x) q (x))^{\frac{1}{2}}

$d_\text{BC}(p,q) = - \ln \sum_x (p(x)q(x))^\frac{1}{2}$

i rozbieżność KL jako

d_{KL} (p, q) = \sum_{x} p (x) \ln \frac{p (x)}{q (x)}

$d_\text{KL}(p,q) = \sum_x p(x)\ln \frac{p(x)}{q(x)}$

Teraz nie możemy wcisnąć dziennika do sumy na odległość , więc spróbujmy wyciągnąć dziennik na zewnątrz rozbieżności : $\text{BC}$ $\text{KL}$

d_{KL} (p, q) = - \ln \prod_{x} {(\frac{q (x)}{p (x)})}^{p (x)}

$d_\text{KL}(p,q) = -\ln \prod_x \left( \frac{q(x)}{p(x)} \right)^{p(x)}$

Rozważmy ich zachowanie, gdy jest ustalone, jako rozkład równomierny na możliwości: $p$ $n$

d_{KL} (p, q) = - \ln n - \ln {(\prod_{x} q (x))}^{\frac{1}{n}} d_{BC} (p, q) = - \ln \frac{1}{\sqrt{n}} - \ln \sum_{x} \sqrt{q (x)}

$d_\text{KL}(p,q) = -\ln n - \ln \left(\prod_x q(x)\right)^\frac{1}{n} \qquad d_\text{BC}(p,q) = - \ln \frac{1}{\sqrt{n}} - \ln\sum_x \sqrt{q(x)}$

Po lewej mamy log czegoś podobnego w formie do średniej geometrycznej . Po prawej stronie mamy coś podobnego do logarytmu średniej arytmetycznej . Jak powiedziałem, nie jest to duża odpowiedź, ale myślę, że daje to intuicyjną intuicję, w jaki sposób odległość BC i dywergencja KL reagują na odchylenia między i . $p$ $q$

Andy Jones
źródło

Różnice między odległością Bhattacharyya a dywergencją KL

Odpowiedzi: