Jakościowo czym jest Cross Entropy

15

To pytanie podaje ilościową definicję entropii krzyżowej pod względem jej wzoru.

Szukam bardziej hipotetycznej definicji, wikipedia mówi:

W teorii informacji entropia krzyżowa między dwoma rozkładami prawdopodobieństwa mierzy średnią liczbę bitów potrzebną do zidentyfikowania zdarzenia z zestawu możliwości, jeśli stosuje się schemat kodowania oparty na danym rozkładzie prawdopodobieństwa q, a nie na rozkładzie „prawdziwym” p .

Podkreśliłem tę część, która sprawia mi problemy w zrozumieniu tego. Chciałbym niezłą definicję, która nie wymaga oddzielnego (wcześniejszego) zrozumienia Entropy.

Lyndon White
źródło
1
Pytasz o definicję cross- centropy, która jednocześnie definiuje samą entropię . I intuicyjnie, więc ... Jeśli masz problemy ze zrozumieniem samej koncepcji Entropy, dobrze byłoby najpierw zrozumieć podstawową koncepcję, a następnie dowolne z jej rozszerzeń.
Alecos Papadopoulos
1
Osobiście miałem podstawową wiedzę na temat Entropy (chociaż minęło prawie 12 miesięcy, odkąd go zastosowałem). Ale ilościowe wyrażenie Entropii powinno mieścić się w jednym krótkim akapicie, a entropia krzyżowa powinna zająć tylko jeszcze jeden. Dlatego uważam, że dobra odpowiedź może zawierać oba te elementy, aby czytelnik nie musiał odwoływać się w inne strony, aby je zrozumieć.
Lyndon White

Odpowiedzi:

23

Aby zakodować zdarzenie występujące z prawdopodobieństwem , potrzebujesz przynajmniej log 2 (p bitów (dlaczego? Zobaczmoją odpowiedź na temat: Jaka jest rola logarytmu w entropii Shannona?).log2(1/p)

Zatem w optymalnym kodowaniu średnia długość zakodowanej wiadomości wynosi czylientropia Shannonapierwotnego rozkładu prawdopodobieństwa.

ipilog2(1pi),

Jeśli jednak dla rozkładu prawdopodobieństwa zastosujesz kodowanie, które jest optymalne dla innego rozkładu prawdopodobieństwa Q , wówczas średnia długość zakodowanej wiadomości wynosi i p i długość_kodu ( i ) = i p i logPQ jestentropią krzyżową, która jest większa niżipilog

ipicode_length(i)=ipilog2(1qi),
ipilog2(1pi)

Jako przykład rozważmy alfabet czterech liter (A, B, C, D), ale z A i B o tej samej częstotliwości, a C i D w ogóle się nie pojawiają. Więc prawdopodobieństwo jestP=(12,12,0,0)

Następnie, jeśli chcemy go optymalnie zakodować, kodujemy A jako 0, a B jako 1, więc otrzymujemy jeden bit zakodowanej wiadomości na jedną literę. (I to jest właśnie entropia Shannona naszego rozkładu prawdopodobieństwa.)

PQ=(14,14,14,14)

Piotr Migdal
źródło
Ładne wyjaśnienie, dzięki. Jednak definicja Wikipedii to sum_i [p_i * log (q_i)]. Twoje użycie 1 / q_i daje liczbę możliwych stanów, dlatego log_2 konwertuje to na liczbę bitów wymaganych do zakodowania jednego symbolu, ale strona wikipedia opisuje coś subtelnie innego.
redcalx
4
1/qilog(1/qi)=log(qi)