Jak interpretować entropię różnicową?

15

Niedawno przeczytałem ten artykuł na temat entropii dyskretnego rozkładu prawdopodobieństwa. Opisuje ładny sposób myślenia o entropii jako oczekiwanej liczbie bitów (przynajmniej przy użyciu w definicji entropii) potrzebnej do zakodowania wiadomości, gdy kodowanie jest optymalne, biorąc pod uwagę rozkład prawdopodobieństwa użytych słów.log2

Jednak w przypadku ciągłego przypadku, takiego jak tutaj, uważam, że ten sposób myślenia się psuje, ponieważ dla dowolnego ciągłego rozkładu prawdopodobieństwa p (x) (proszę mnie poprawić, jeśli to źle), więc ja zastanawiałem się, czy istnieje dobry sposób myślenia o tym, co oznacza ciągła entropia, tak jak w przypadku dyskretnym.p ( x )xp(x)=p(x)

dippynark
źródło
Czy próbowałeś przeczytać artykuły w Wikipedii na temat entropii i entropii różnicowej?
ttnphns
Rozkład ciągły nie ma funkcji masy prawdopodobieństwa. Analog w przypadku ciągłym jest całką gęstości prawdopodobieństwa, a całka w całym zakresie x wynosi 1.
Michael R. Chernick
@MichaelChernick Nie powiedziałem, że tak, ale sposób myślenia o dyskretnej sprawie opiera się na fakcie, że suma jest równa 1.
dippynark
@ttnphns nie, nie mam, ale sprawdzę je teraz, dzięki.
dippynark
Zobacz także stats.stackexchange.com/questions/66186/…, aby zapoznać się z interpretacją entropii Shannona. Niektóre pomysły można przenieść.
kjetil b halvorsen

Odpowiedzi:

15

Nie ma interpretacji entropii różnicowej, która byłaby tak znacząca lub użyteczna jak entropia. Problem z ciągłymi zmiennymi losowymi polega na tym, że ich wartości zwykle mają 0 prawdopodobieństwa, a zatem wymagałoby nieskończonej liczby bitów do zakodowania.

Jeśli spojrzysz na granicę dyskretnej entropii poprzez pomiar prawdopodobieństwa odstępów , otrzymasz[nε,(n+1)ε[

p(x)log2p(x)dxlog2ε

a nie różnicowa entropia. Ta ilość jest w pewnym sensie bardziej znacząca, ale rozejdzie się do nieskończoności, gdy będziemy przyjmować coraz mniejsze interwały. Ma to sens, ponieważ będziemy potrzebować coraz więcej bitów do zakodowania, w którym z wielu przedziałów spada wartość naszej losowej wartości.

Bardziej użyteczną wielkością dla ciągłych rozkładów jest względna entropia (również rozbieżność Kullbacka-Leiblera). W przypadku dystrybucji dyskretnych:

DKL[P||Q]=xP(x)log2P(x)Q(x).

Mierzy liczbę dodatkowych bitów używanych, gdy prawdziwym rozkładem jest , ale używamy bitów do kodowania . Możemy wziąć limit względnej entropii i dojść doPlogQ2(x)x

DKL[p∣∣q]=p(x)log2p(x)q(x)dx,

ponieważ anuluje się. W przypadku dystrybucji ciągłych odpowiada to liczbie dodatkowych bitów używanych w limicie nieskończenie małych pojemników. Zarówno dla ciągłego, jak i dyskretnego rozkładu, jest to zawsze nieujemne.log2ε

Teraz może myśleć różnicowego entropii ujemnego względnego entropii między i nieznormalizowanych gęstości ,p(x)λ(x)=1

p(x)log2p(x)dx=DKL[p∣∣λ].

Jego interpretacja byłaby różnicą liczby bitów wymaganych przy użyciu bitów do zakodowania tego interwału zamiast tego z bitów . Nawet jeśli to pierwsze byłoby optymalne, różnica ta może być teraz ujemna, ponieważ oszukuje (nie integrując z 1) i dlatego może przypisać mniej bitów niż teoretycznie możliwe.log2nε(n+1)εp(x)dxnlogελ

Zobacz przemówienie Sergio Verdu, aby uzyskać świetne wprowadzenie do względnej entropii.

Lucas
źródło