Rozbieżność Kullbacka-Leiblera BEZ teorii informacji

Po długim przeszukiwaniu Cross Validated nadal nie czuję, że jestem bliżej zrozumienia dywergencji KL poza sferą teorii informacji. To dość dziwne, gdy ktoś z wykształceniem matematycznym łatwiej jest zrozumieć wyjaśnienie teorii informacji.

Podsumowując moje rozumienie na podstawie teorii informacji: jeśli mamy zmienną losową o skończonej liczbie wyników, istnieje optymalne kodowanie, które pozwala nam komunikować wynik z kimś innym, z przeciętnie najkrótszą wiadomością (uważam, że najłatwiej jest to zrobić obraz w kategoriach bitów). Oczekiwaną długość komunikatu, który należałoby przekazać, wynik podaje

- \sum_{α} p_{α} \log_{2} (p_{α})

$-\sum _{\alpha}p_{\alpha}\log_{2}(p_{\alpha})$ jeśli stosowane jest optymalne kodowanie. Jeśli użyjesz suboptymalnego kodowania, wówczas rozbieżność KL mówi nam średnio o tym, jak długo potrwa nasza wiadomość.

Podoba mi się to wyjaśnienie, ponieważ dość intuicyjnie zajmuje się asymetrią dywergencji KL. Jeśli mamy dwa różne systemy, tj. Dwie załadowane monety, które są inaczej załadowane, będą miały różne optymalne kodowanie. Nie instynktownie nie uważam, że użycie kodowania drugiego systemu dla pierwszego jest „równie złe”, jak użycie kodowania pierwszego systemu dla drugiego. Nie przechodząc przez proces myślenia o tym, jak się przekonałem, jestem teraz całkiem szczęśliwy, że

\sum_{α} p_{α} (\log_{2} q_{α} - \log_{2} p_{α})

$\sum _{\alpha}p_{\alpha}( \log _{2}q_{\alpha}-\log_{2}p_{\alpha})$ daje ci „dodatkową oczekiwaną długość wiadomości”, gdy używasz kodowania

q

$q$ dla

p

$p$ .

Jednak większość definicji rozbieżności KL, w tym Wikipedia, wypowiada się następnie (utrzymując to w dyskretnych terminach, aby można je było porównać z interpretacją teorii informacji, która działa znacznie lepiej w dyskretnych terminach, ponieważ bity są dyskretne), że jeśli mamy dwa dyskretne prawdopodobieństwo dystrybucje, a następnie KL podaje pewną miarę „jak różne są”. Nie widziałem jeszcze jednego wyjaśnienia, w jaki sposób te dwa pojęcia są ze sobą powiązane. Wydaje mi się, że pamiętam w swojej książce na temat wnioskowania, że Dave Mackay mówi o tym, jak kompresja danych i wnioskowanie są w zasadzie tym samym, i podejrzewam, że moje pytanie jest z tym związane.

Niezależnie od tego, czy jest, czy nie, pytanie, które mam na myśli, dotyczy problemów wnioskowania. (Zachowując dyskrecję), jeśli mamy dwie próbki radioaktywne i wiemy, że jedna z nich jest pewnym materiałem o znanej radioaktywności (jest to wątpliwa fizyka, ale udawajmy, że wszechświat działa w ten sposób), a zatem znamy „prawdziwy” rozkład radioaktywnych kliknięć, które powinniśmy zmierzyć, powinno być poissońskie ze znanym , czy sprawiedliwe jest zbudowanie empirycznego rozkładu dla obu próbek i porównanie ich rozbieżności KL ze znanym rozkładem i stwierdzenie, że niższy jest bardziej prawdopodobny dla tego materiału? $\lambda$

Odchodząc od wątpliwej fizyki, jeśli wiem, że dwie próbki są pobierane z tego samego rozkładu, ale wiem, że nie są losowo wybierane, porównanie ich rozbieżności KL ze znanym, globalnym rozkładem dałoby mi poczucie „jak stronnicze” są próbki , w stosunku do jednego i drugiego?

I wreszcie, jeśli odpowiedź na poprzednie pytania brzmi „tak”, to dlaczego? Czy można zrozumieć te rzeczy wyłącznie ze statystycznego punktu widzenia, nie czyniąc żadnych (być może wątłych) powiązań z teorią informacji?

inference entropy information-theory kullback-leibler compression gazza89
źródło

Zobacz moją odpowiedź tutaj: stats.stackexchange.com/questions/188903/... która nie odnosi się do teorii informacji

kjetil b halvorsen

Czy dywergencja KL nie jest wyłącznie koncepcją teoretyczną? Wiem, że daje to wzajemną informację między uprzednim a późniejszym Bayesianem lub coś w tym rodzaju i pamiętam, że widziałem to raz w kontekście transformacji / koniugatów Fenchela (teoria dużych odchyleń), ale w każdym razie myślałem, że to koncepcja teorii informacji .

Chill2Macht

Odpowiedzi:

Istnieje podejście czysto statystyczne do rozbieżności Kullbacka-Leiblera: weź próbkę iid z nieznanego rozkładu i rozważ potencjalne dopasowanie przez rodzinę rozkładów, $X_1,\ldots,X_n$ $p^\star$ Odpowiednie prawdopodobieństwo jest zdefiniowane jako a jego logarytm wynosi

F = {p_{θ}, θ \in Θ}

$\mathfrak{F}=\{p_\theta\,,\ \theta\in\Theta\}$

L (θ | x_{1}, \dots, x_{n}) = \prod_{i = 1}^{n} p_{θ} (x_{ja})

$L(\theta|x_1,\ldots,x_n)=\prod_{i=1}^n p_\theta(x_i)$

ℓ (θ | x_{1}, \dots, x_{n}) = \sum_{ja = 1}^{n} \log p_{θ} (x_{ja})

$\ell(\theta|x_1,\ldots,x_n)=\sum_{i=1}^n \log p_\theta(x_i)$ Dlatego

która jest interesującą częścią rozbieżności Kullbacka-Leiblera między

\frac{1}{n} ℓ (θ | x_{1}, \dots, x_{n}) ⟶ mi [\log p_{θ} (X)] = \int \log p_{θ} (x) p^{⋆} (x) re x

$\frac{1}{n} \ell(\theta|x_1,\ldots,x_n) \longrightarrow \mathbb{E}[\log p_\theta(X)]=\int \log p_\theta(x)\,p^\star(x)\text{d}x$

p_{θ}

$p_\theta$

p^{⋆}

$p^\star$

druga część

H. (p_{θ} | p^{⋆}) \overset{def}{=} \int \log {p^{⋆} (x) / p_{θ} (x)} p^{⋆} (x) re x

$\mathfrak{H}(p_\theta|p^\star)\stackrel{\text{def}}{=}\int \log \{p^\star(x)/p_\theta(x)\}\,p^\star(x)\text{d}x$

jest tam, aby minimalna [w

]

równa zero.

\int \log {p^{⋆} (x)} p^{⋆} (x) re x

$\int \log \{p^\star(x)\}\,p^\star(x)\text{d}x$

θ

$\theta$

H (p_{θ} | p^{⋆})

$\mathfrak{H}(p_\theta|p^\star)$

Książka, która łączy rozbieżność, teorię informacji i wnioskowanie statystyczne, to optymalna ocena parametrów Rissanena , którą tu przejrzałem .

Xi'an
źródło

Czy jest jakaś możliwość zobaczenia tego liczbowego przykładu?

Paul Uszak,

Mam na myśli oglądanie niektórych faktycznych liczb. Teoria jest urocza, ale świat rządzi liczbami. Nie ma przykładów rozbieżności KL, które używają liczb rzeczywistych, więc doszedłem do wniosku, że jest to teoria bez możliwości zastosowania. OP omówił długość komunikatów w bitach i kompresję danych. Miałem na myśli każdy przykład, który zawierał wiele bitów ...

Paul Uszak,

@PaulUszak: jeśli powiem ci, że odległość Kullabacka-Leiblera między rozkładem N (0,1) i N (1,1) wynosi 1/2, jak to pomaga?

Xi'an,

@ Xi'an: Czy musi być jakiś związek między tą liczbą 1/2 a mocą odpowiedniego testu współczynnika wiarygodności?

kjetil b halvorsen

+1 Ponownie wątek komentarza: Umysł wprawia w osłupienie myśl, że każda koncepcja, której nie można sprowadzić do „liczby bitów”, jest bezużyteczna.

whuber

Oto statystyczna interpretacja rozbieżności Kullbacka-Leiblera, luźno zaczerpnięta z IJ Gooda ( waga dowodów: krótka ankieta , Bayesian Statistics 2, 1985).

Waga dowodów.

$x_1, x_2, \dots, x_n$ $f_0$ $H_1$ $H_2$ $f_0$ $H_1 = \{f_1\}$ $H_2 = \{f_2\}$ $f_0$ $f_1$ $f_2$

$x = (x_1, \dots, x_n)$ $H_1$ $H_2$

W (x) = \log \frac{f_{1} (x)}{f_{2} (x)} .

$W(x) = \log \frac{f_1(x)}{f_2(x)} .$

P

$P$

H_{0}

$H_0$

H_{1}

$H_1$

W

$W$

\log \frac{P (H_{0} | x)}{P (H_{1} | x)} = W (x) + \log \frac{P (H_{0})}{P (H_{1})} .

$\log \frac{P(H_0 | x)}{P(H_1 | x)} = W(x) + \log\frac{P(H_0)}{P(H_1)}.$

W (x_{1}, \dots, x_{n}) = W (x_{1}) + \dots + W (x_{n}) .

$W(x_1, \dots, x_n) = W(x_1) + \dots +W(x_n) .$

W (x)

$W(x)$ $x$ $H_1$ $H_2$

$x$ $W(x)$ $W(x) > 2$

Rozbieżność Kullbacka-Leiblera

$f_1$ $f_2$ $x \sim f_1$

K L (f_{1}, f_{2}) = E_{x \sim {fa}_{1}} W. (x) = \int {fa}_{1} \log \frac{{fa}_{1}}{{fa}_{2)}} .

$KL(f_1, f_2) = \mathbb{E}_{x \sim f_1} W(x) = \int f_1 \log\frac{f_1}{f_2}.$

$x \sim f_1$ $H_1 = \{f_1\}$ $H_2$

{mi}_{x \sim {fa}_{1}} W. (x) \geq 0.

$\mathbb{E}_{x \sim f_1} W(x) \geq 0.$

Olivier
źródło

Nie widziałem jeszcze jednego wyjaśnienia, w jaki sposób te dwa pojęcia są ze sobą powiązane.

Niewiele wiem o teorii informacji, ale tak o niej myślę: kiedy słyszę, jak osoba z teorii informacji mówi „długość wiadomości”, mój mózg mówi „zaskoczenie”. Niespodzianka jest 1.) losowa i 2.) subiektywna.

$X$ $q(X)$ $- \log q(X)$

$q$ $X$ $p$ $p$ $E_p[-\log p(X)]$ $q$ $p$ $E_p[-\log q(X)]$

Zamiast myśleć o tym, „czym się różnią”, myślę o „wzroście oczekiwanej niespodzianki z powodu niewłaściwej dystrybucji”. Wszystko to wynika z właściwości logarytmu.

{mi}_{p} [\log (\frac{p (X)}{q (X)})] = {mi}_{p} [- \log q (X)] - {mi}_{p} [- \log p (X)] \geq 0.

$E_p[\log \left( \frac{p(X)}{q(X)} \right)] = E_p[-\log q(X)] - E_p[- \log p(X)] \ge 0.$

Edytować

$−\log(q(x))$ $q$

$X$ $q$ $x$ $0$ $-\log(0) = \infty$ $1$ $0$

$-\log$

$q(x) > 1$ zbiegnie się z negatywną niespodzianką. To chyba wada.

$X \sim q_X(x)$ $Y=aX+b \sim q_x((y-b)/a)|1/a|$ $X$ $-\log q_X(X) \neq -\log q_Y(Y)$

$(X-EX)^2$

Edycja 2: wygląda na to, że nie jestem jedynym, który uważa to za „niespodziankę”. Od tutaj :

$y$ $\theta$ $-2 \log\{ p(y \mid \theta)\}$

Taylor
źródło

- \log (q (x))

$-\log(q(x))$

q

$q$

T

$T$

T (X) = a X

$T(X) = aX$

a \neq 0

$a \not = 0$

T

$T$

T (x)

$T(x)$

x

$x$

T (x)

$T(x)$

x

$x$

- \log q_{T (X)} (T (x)) > - \log q_{X} (x)

$-\log q_{T(X)}(T(x)) > -\log q_X (x)$

(X - E [X])^{2}

$(X - E[X])^2$