Rozbieżność Kullbacka-Leiblera BEZ teorii informacji

23

Po długim przeszukiwaniu Cross Validated nadal nie czuję, że jestem bliżej zrozumienia dywergencji KL poza sferą teorii informacji. To dość dziwne, gdy ktoś z wykształceniem matematycznym łatwiej jest zrozumieć wyjaśnienie teorii informacji.

Podsumowując moje rozumienie na podstawie teorii informacji: jeśli mamy zmienną losową o skończonej liczbie wyników, istnieje optymalne kodowanie, które pozwala nam komunikować wynik z kimś innym, z przeciętnie najkrótszą wiadomością (uważam, że najłatwiej jest to zrobić obraz w kategoriach bitów). Oczekiwaną długość komunikatu, który należałoby przekazać, wynik podaje

αpαlog2(pα)
jeśli stosowane jest optymalne kodowanie. Jeśli użyjesz suboptymalnego kodowania, wówczas rozbieżność KL mówi nam średnio o tym, jak długo potrwa nasza wiadomość.

Podoba mi się to wyjaśnienie, ponieważ dość intuicyjnie zajmuje się asymetrią dywergencji KL. Jeśli mamy dwa różne systemy, tj. Dwie załadowane monety, które są inaczej załadowane, będą miały różne optymalne kodowanie. Nie instynktownie nie uważam, że użycie kodowania drugiego systemu dla pierwszego jest „równie złe”, jak użycie kodowania pierwszego systemu dla drugiego. Nie przechodząc przez proces myślenia o tym, jak się przekonałem, jestem teraz całkiem szczęśliwy, że

αpα(log2qαlog2pα)
daje ci „dodatkową oczekiwaną długość wiadomości”, gdy używasz kodowania q dla p .

Jednak większość definicji rozbieżności KL, w tym Wikipedia, wypowiada się następnie (utrzymując to w dyskretnych terminach, aby można je było porównać z interpretacją teorii informacji, która działa znacznie lepiej w dyskretnych terminach, ponieważ bity są dyskretne), że jeśli mamy dwa dyskretne prawdopodobieństwo dystrybucje, a następnie KL podaje pewną miarę „jak różne są”. Nie widziałem jeszcze jednego wyjaśnienia, w jaki sposób te dwa pojęcia są ze sobą powiązane. Wydaje mi się, że pamiętam w swojej książce na temat wnioskowania, że ​​Dave Mackay mówi o tym, jak kompresja danych i wnioskowanie są w zasadzie tym samym, i podejrzewam, że moje pytanie jest z tym związane.

Niezależnie od tego, czy jest, czy nie, pytanie, które mam na myśli, dotyczy problemów wnioskowania. (Zachowując dyskrecję), jeśli mamy dwie próbki radioaktywne i wiemy, że jedna z nich jest pewnym materiałem o znanej radioaktywności (jest to wątpliwa fizyka, ale udawajmy, że wszechświat działa w ten sposób), a zatem znamy „prawdziwy” rozkład radioaktywnych kliknięć, które powinniśmy zmierzyć, powinno być poissońskie ze znanym , czy sprawiedliwe jest zbudowanie empirycznego rozkładu dla obu próbek i porównanie ich rozbieżności KL ze znanym rozkładem i stwierdzenie, że niższy jest bardziej prawdopodobny dla tego materiału?λ

Odchodząc od wątpliwej fizyki, jeśli wiem, że dwie próbki są pobierane z tego samego rozkładu, ale wiem, że nie są losowo wybierane, porównanie ich rozbieżności KL ze znanym, globalnym rozkładem dałoby mi poczucie „jak stronnicze” są próbki , w stosunku do jednego i drugiego?

I wreszcie, jeśli odpowiedź na poprzednie pytania brzmi „tak”, to dlaczego? Czy można zrozumieć te rzeczy wyłącznie ze statystycznego punktu widzenia, nie czyniąc żadnych (być może wątłych) powiązań z teorią informacji?

gazza89
źródło
1
Zobacz moją odpowiedź tutaj: stats.stackexchange.com/questions/188903/... która nie odnosi się do teorii informacji
kjetil b halvorsen
1
Czy dywergencja KL nie jest wyłącznie koncepcją teoretyczną? Wiem, że daje to wzajemną informację między uprzednim a późniejszym Bayesianem lub coś w tym rodzaju i pamiętam, że widziałem to raz w kontekście transformacji / koniugatów Fenchela (teoria dużych odchyleń), ale w każdym razie myślałem, że to koncepcja teorii informacji .
Chill2Macht

Odpowiedzi:

23

Istnieje podejście czysto statystyczne do rozbieżności Kullbacka-Leiblera: weź próbkę iid z nieznanego rozkładu p i rozważ potencjalne dopasowanie przez rodzinę rozkładów, F = { p θX1,,Xnp Odpowiednie prawdopodobieństwo jest zdefiniowane jako L ( θ | x 1 , , x n ) = n i = 1 p θ ( x i ), a jego logarytm wynosi ( θ | x 1 , , x n

F={pθ, θΘ}
L(θ|x1,,xn)=i=1npθ(xja)
(θ|x1,,xn)=ja=1nlogpθ(xja)
Dlatego która jest interesującą częścią rozbieżności Kullbacka-Leiblera między p θ i p H ( p θ | p ) def = log { p ( x ) / p θ ( x ) }
1n(θ|x1,,xn)mi[logpθ(X)]=logpθ(x)p(x)rex
pθp druga część log { p ( x ) }
H.(pθ|p)=deflog{p(x)/pθ(x)}p(x)rex
jest tam, aby minimalna [w θ ] H ( p θ | p ) była równa zero.
log{p(x)}p(x)rex
θH.(pθ|p)

Książka, która łączy rozbieżność, teorię informacji i wnioskowanie statystyczne, to optymalna ocena parametrów Rissanena , którą tu przejrzałem .

Xi'an
źródło
Czy jest jakaś możliwość zobaczenia tego liczbowego przykładu?
Paul Uszak,
Mam na myśli oglądanie niektórych faktycznych liczb. Teoria jest urocza, ale świat rządzi liczbami. Nie ma przykładów rozbieżności KL, które używają liczb rzeczywistych, więc doszedłem do wniosku, że jest to teoria bez możliwości zastosowania. OP omówił długość komunikatów w bitach i kompresję danych. Miałem na myśli każdy przykład, który zawierał wiele bitów ...
Paul Uszak,
2
@PaulUszak: jeśli powiem ci, że odległość Kullabacka-Leiblera między rozkładem N (0,1) i N (1,1) wynosi 1/2, jak to pomaga?
Xi'an,
2
@ Xi'an: Czy musi być jakiś związek między tą liczbą 1/2 a mocą odpowiedniego testu współczynnika wiarygodności?
kjetil b halvorsen
7
+1 Ponownie wątek komentarza: Umysł wprawia w osłupienie myśl, że każda koncepcja, której nie można sprowadzić do „liczby bitów”, jest bezużyteczna.
whuber
8

Oto statystyczna interpretacja rozbieżności Kullbacka-Leiblera, luźno zaczerpnięta z IJ Gooda ( waga dowodów: krótka ankieta , Bayesian Statistics 2, 1985).

Waga dowodów.

x1,x2,,xnf0H1H2f0H1={f1}H2={f2}f0f1f2

x=(x1,,xn)H1H2

W(x)=logf1(x)f2(x).
PH0H1W
logP(H0|x)P(H1|x)=W(x)+logP(H0)P(H1).
W(x1,,xn)=W(x1)++W(xn).
W(x)xH1H2

xW(x)W(x)>2

Rozbieżność Kullbacka-Leiblera

f1f2xf1

KL(f1,f2)=Exfa1W.(x)=fa1logfa1fa2).

xfa1H.1={fa1}H.2)

mixfa1W.(x)0.
Olivier
źródło
1

Nie widziałem jeszcze jednego wyjaśnienia, w jaki sposób te dwa pojęcia są ze sobą powiązane.

Niewiele wiem o teorii informacji, ale tak o niej myślę: kiedy słyszę, jak osoba z teorii informacji mówi „długość wiadomości”, mój mózg mówi „zaskoczenie”. Niespodzianka jest 1.) losowa i 2.) subiektywna.

Xq(X)-logq(X)

qXppmip[-logp(X)]qpmip[-logq(X)]

Zamiast myśleć o tym, „czym się różnią”, myślę o „wzroście oczekiwanej niespodzianki z powodu niewłaściwej dystrybucji”. Wszystko to wynika z właściwości logarytmu.

mip[log(p(X)q(X))]=mip[-logq(X)]-mip[-logp(X)]0.

Edytować

-log(q(x))q

Xqx0-log(0)=10

-log

q(x)>1 zbiegnie się z negatywną niespodzianką. To chyba wada.

XqX(x)Y=aX+bqx((yb)/a)|1/a|XlogqX(X)logqY(Y)

(XEX)2

Edycja 2: wygląda na to, że nie jestem jedynym, który uważa to za „niespodziankę”. Od tutaj :

yθ2log{p(yθ)}

Taylor
źródło
1
log(q(x))q
1
T.T.(X)=zaXza0T.T.(x)xT.(x)x-logqT.(X)(T.(x))>-logqX(x)
(X-mi[X])2)