Rozważmy następujące dwa rozkłady prawdopodobieństwa
P Q
0.01 0.002
0.02 0.004
0.03 0.006
0.04 0.008
0.05 0.01
0.06 0.012
0.07 0.014
0.08 0.016
0.64 0.928
Obliczyłem dywergencję Kullbacka-Leiblera, która jest równa Chcę ogólnie wiedzieć, co pokazuje ta liczba? Zasadniczo rozbieżność Kullbacka-Leiblera pokazuje mi, jak daleko jest jeden rozkład prawdopodobieństwa od drugiego, prawda? Jest podobny do terminologii entropijnej, ale co do liczb? Jeśli mam wynik 0,49, czy mogę powiedzieć, że około jeden rozkład jest daleki od drugiego o 50%?
interpretation
information-theory
kullback-leibler
dato datuashvili
źródło
źródło
Odpowiedzi:
Rozbieżność Kullbacka-Leiblera nie jest właściwością metryczną, ponieważ nie jest symetryczna, a także nie spełnia nierówności trójkąta. Zatem „role” odgrywane przez dwie dystrybucje są różne i ważne jest, aby rozdzielić te role zgodnie z badanym zjawiskiem w świecie rzeczywistym.
Kiedy piszemy (OP obliczył wyrażenie przy użyciu logarytmów base-2)
uważamy rozkład za „rozkład docelowy” (zwykle uważany za rozkład rzeczywisty), który przybliżamy za pomocą rozkładu Q.P Q
Teraz,
gdzie jest entropią rozkładu ShannonaH(P) a - E P ( ln ( Q ) ) nazywa się „entropią krzyżową P i Q ” - również niesymetryczną.P −EP(ln(Q)) P Q
Pisanie
Zatem nie , dywergencji KL lepiej nie należy interpretować jako „miary odległości” między rozkładami, ale raczej jako miarę wzrostu entropii z powodu zastosowania przybliżenia do rozkładu rzeczywistego, a nie samego rozkładu rzeczywistego .
Jesteśmy więc w krainie teorii informacji. Aby usłyszeć od mistrzów (Cover & Thomas) ”
Ci sami mądrzy ludzie mówią
Ale to drugie podejście jest przydatne głównie, gdy próbuje się zminimalizować rozbieżność KL w celu zoptymalizowania niektórych procedur szacowania. Do interpretacji jego wartości liczbowej per se nie jest ona użyteczna i należy preferować podejście „wzrostu entropii”.
Dla określonych rozkładów pytania (zawsze przy użyciu logarytmów base-2)
Innymi słowy, potrzebujesz 25% więcej bitów, aby opisać sytuację, jeśli zamierzasz użyćQ P
źródło
Rozbieżność KL mierzy utratę informacji wymaganą do reprezentacji symbolu z P za pomocą symboli z Q. Jeśli masz wartość 0,49, oznacza to, że średnio możesz zakodować dwa symbole z P z dwoma odpowiednimi symbolami z Q plus jeden bit dodatkowych informacji .
źródło
źródło