Dlaczego dywergencja KL nie jest ujemna?
Z punktu widzenia teorii informacji rozumiem tak intuicyjnie:
Powiedzmy, że istnieją dwa zespoły i które składają się z tego samego zestawu elementów oznaczonych . i są różne rozkłady prawdopodobieństwa ponad zespołem i , odpowiednio.
Z punktu widzenia teorii informacji jest najmniejsza ilość bitów wymaganych dla nagrywania elementu na zespół . Tak więc oczekiwanie
Ponieważ ta formuła nakłada dolną granicę na potrzebne bity średnio, tak że dla innego zbioru który powoduje inny rozkład prawdopodobieństwa q ( x ) , granica, którą daje dla każdego elementu x , z pewnością nie będzie go bitować podane przez p ( x ) , co oznacza przyjęcie oczekiwań, ∑ x ∈ e n s e m b l e - p ( x ) ln ( q ( x ) )
Nie umieszczamtutaj≥, ponieważp(x)iq(x)są różne.
Takie jest moje intuicyjne rozumienie, czy istnieje czysto matematyczny sposób wykazania, że rozbieżność KL jest nieujemna? Problem można określić jako:
Biorąc pod uwagę, że i q ( x ) są dodatnie w stosunku do linii rzeczywistej, a ∫ + ∞ - ∞ p ( x ) d x = 1 , ∫ + ∞ - ∞ q ( x ) d x = 1 . Wykazać ∫ + ∞ - ∞ p ( x ) ln p ( x ) jest nieujemne.
Jak można to udowodnić? Czy można to udowodnić bez dodatkowych warunków?
źródło
Odpowiedzi:
Dowód 1:
Nie uwzględniam tego jako osobnego dowodu, ponieważ jeśli poprosisz mnie o udowodnienie nierówności Gibbsa, musiałbym zacząć od braku negatywności rozbieżności KL i zrobić ten sam dowód od góry.
Then we can show thatDKL(p||q)≥0 :
where we have used the Log sum inequality at (b).
Proof 3:
(Taken from the book "Elements of Information Theory" by Thomas M. Cover and Joy A. Thomas)
where at (c) we have used Jensen's inequality and the fact thatlog is a concave function.
źródło