Analiza dywergencji Kullbacka-Leiblera

18

Rozważmy następujące dwa rozkłady prawdopodobieństwa

P       Q
0.01    0.002
0.02    0.004
0.03    0.006
0.04    0.008
0.05    0.01
0.06    0.012
0.07    0.014
0.08    0.016
0.64    0.928

Obliczyłem dywergencję Kullbacka-Leiblera, która jest równa Chcę ogólnie wiedzieć, co pokazuje ta liczba? Zasadniczo rozbieżność Kullbacka-Leiblera pokazuje mi, jak daleko jest jeden rozkład prawdopodobieństwa od drugiego, prawda? Jest podobny do terminologii entropijnej, ale co do liczb? Jeśli mam wynik 0,49, czy mogę powiedzieć, że około jeden rozkład jest daleki od drugiego o 50%?0.492820258

dato datuashvili
źródło
Zobacz dyskusję tutaj, która może być pomocna.
Glen_b
Czy czytałeś artykuł na Wikipedii?
Neil G

Odpowiedzi:

42

Rozbieżność Kullbacka-Leiblera nie jest właściwością metryczną, ponieważ nie jest symetryczna, a także nie spełnia nierówności trójkąta. Zatem „role” odgrywane przez dwie dystrybucje są różne i ważne jest, aby rozdzielić te role zgodnie z badanym zjawiskiem w świecie rzeczywistym.

Kiedy piszemy (OP obliczył wyrażenie przy użyciu logarytmów base-2)

K(P||Q)=ilog2(pi/qi)pi

uważamy rozkład za „rozkład docelowy” (zwykle uważany za rozkład rzeczywisty), który przybliżamy za pomocą rozkładu Q.PQ

Teraz,

ilog2(pi/qi)pi=ilog2(pi)piilog2(qi)pi=H(P)EP(ln(Q))

gdzie jest entropią rozkładu ShannonaH(P) a - E P ( ln ( Q ) ) nazywa się „entropią krzyżową P i Q ” - również niesymetryczną.PEP(ln(Q))PQ

Pisanie

K(P||Q)=H(P,Q)H(P)

P

Zatem nie , dywergencji KL lepiej nie należy interpretować jako „miary odległości” między rozkładami, ale raczej jako miarę wzrostu entropii z powodu zastosowania przybliżenia do rozkładu rzeczywistego, a nie samego rozkładu rzeczywistego .

Jesteśmy więc w krainie teorii informacji. Aby usłyszeć od mistrzów (Cover & Thomas) ”

PH(P)QH(P)+K(P||Q)

Ci sami mądrzy ludzie mówią

... nie jest to prawdziwa odległość między rozkładami, ponieważ nie jest symetryczna i nie spełnia nierówności trójkąta. Niemniej jednak często warto myśleć o względnej entropii jako „odległości” między rozkładami.

Ale to drugie podejście jest przydatne głównie, gdy próbuje się zminimalizować rozbieżność KL w celu zoptymalizowania niektórych procedur szacowania. Do interpretacji jego wartości liczbowej per se nie jest ona użyteczna i należy preferować podejście „wzrostu entropii”.

Dla określonych rozkładów pytania (zawsze przy użyciu logarytmów base-2)

K(P||Q)=0.49282,H(P)=1.9486

Innymi słowy, potrzebujesz 25% więcej bitów, aby opisać sytuację, jeśli zamierzasz użyć QP

Alecos Papadopoulos
źródło
Niezwykle przydatna i pouczająca odpowiedź.
MadHatter
1

Rozbieżność KL mierzy utratę informacji wymaganą do reprezentacji symbolu z P za pomocą symboli z Q. Jeśli masz wartość 0,49, oznacza to, że średnio możesz zakodować dwa symbole z P z dwoma odpowiednimi symbolami z Q plus jeden bit dodatkowych informacji .

Aaron
źródło