Niedawno przeczytałem ten artykuł na temat entropii dyskretnego rozkładu prawdopodobieństwa. Opisuje ładny sposób myślenia o entropii jako oczekiwanej liczbie bitów (przynajmniej przy użyciu w definicji entropii) potrzebnej do zakodowania wiadomości, gdy kodowanie jest optymalne, biorąc pod uwagę rozkład prawdopodobieństwa użytych słów.
Jednak w przypadku ciągłego przypadku, takiego jak tutaj, uważam, że ten sposób myślenia się psuje, ponieważ dla dowolnego ciągłego rozkładu prawdopodobieństwa p (x) (proszę mnie poprawić, jeśli to źle), więc ja zastanawiałem się, czy istnieje dobry sposób myślenia o tym, co oznacza ciągła entropia, tak jak w przypadku dyskretnym.p ( x )
entropy
information-theory
dippynark
źródło
źródło
Odpowiedzi:
Nie ma interpretacji entropii różnicowej, która byłaby tak znacząca lub użyteczna jak entropia. Problem z ciągłymi zmiennymi losowymi polega na tym, że ich wartości zwykle mają 0 prawdopodobieństwa, a zatem wymagałoby nieskończonej liczby bitów do zakodowania.
Jeśli spojrzysz na granicę dyskretnej entropii poprzez pomiar prawdopodobieństwa odstępów , otrzymasz[nε,(n+1)ε[
a nie różnicowa entropia. Ta ilość jest w pewnym sensie bardziej znacząca, ale rozejdzie się do nieskończoności, gdy będziemy przyjmować coraz mniejsze interwały. Ma to sens, ponieważ będziemy potrzebować coraz więcej bitów do zakodowania, w którym z wielu przedziałów spada wartość naszej losowej wartości.
Bardziej użyteczną wielkością dla ciągłych rozkładów jest względna entropia (również rozbieżność Kullbacka-Leiblera). W przypadku dystrybucji dyskretnych:
Mierzy liczbę dodatkowych bitów używanych, gdy prawdziwym rozkładem jest , ale używamy bitów do kodowania . Możemy wziąć limit względnej entropii i dojść doP −logQ2(x) x
ponieważ anuluje się. W przypadku dystrybucji ciągłych odpowiada to liczbie dodatkowych bitów używanych w limicie nieskończenie małych pojemników. Zarówno dla ciągłego, jak i dyskretnego rozkładu, jest to zawsze nieujemne.log2ε
Teraz może myśleć różnicowego entropii ujemnego względnego entropii między i nieznormalizowanych gęstości ,p(x) λ(x)=1
Jego interpretacja byłaby różnicą liczby bitów wymaganych przy użyciu bitów do zakodowania tego interwału zamiast tego z bitów . Nawet jeśli to pierwsze byłoby optymalne, różnica ta może być teraz ujemna, ponieważ oszukuje (nie integrując z 1) i dlatego może przypisać mniej bitów niż teoretycznie możliwe.−log2∫(n+1)εnεp(x)dx n −logε λ
Zobacz przemówienie Sergio Verdu, aby uzyskać świetne wprowadzenie do względnej entropii.
źródło