To pytanie podaje ilościową definicję entropii krzyżowej pod względem jej wzoru.
Szukam bardziej hipotetycznej definicji, wikipedia mówi:
W teorii informacji entropia krzyżowa między dwoma rozkładami prawdopodobieństwa mierzy średnią liczbę bitów potrzebną do zidentyfikowania zdarzenia z zestawu możliwości, jeśli stosuje się schemat kodowania oparty na danym rozkładzie prawdopodobieństwa q, a nie na rozkładzie „prawdziwym” p .
Podkreśliłem tę część, która sprawia mi problemy w zrozumieniu tego. Chciałbym niezłą definicję, która nie wymaga oddzielnego (wcześniejszego) zrozumienia Entropy.
entropy
information-theory
Lyndon White
źródło
źródło
Odpowiedzi:
Aby zakodować zdarzenie występujące z prawdopodobieństwem , potrzebujesz przynajmniej log 2 (p bitów (dlaczego? Zobaczmoją odpowiedź na temat: Jaka jest rola logarytmu w entropii Shannona?).log2(1/p)
Zatem w optymalnym kodowaniu średnia długość zakodowanej wiadomości wynosi czylientropia Shannonapierwotnego rozkładu prawdopodobieństwa.
Jeśli jednak dla rozkładu prawdopodobieństwa zastosujesz kodowanie, które jest optymalne dla innego rozkładu prawdopodobieństwa Q , wówczas średnia długość zakodowanej wiadomości wynosi ∑ i p i długość_kodu ( i ) = ∑ i p i logP Q
jestentropią krzyżową, która jest większa niż∑ipilog
Jako przykład rozważmy alfabet czterech liter (A, B, C, D), ale z A i B o tej samej częstotliwości, a C i D w ogóle się nie pojawiają. Więc prawdopodobieństwo jestP=(12,12,0,0)
Następnie, jeśli chcemy go optymalnie zakodować, kodujemy A jako 0, a B jako 1, więc otrzymujemy jeden bit zakodowanej wiadomości na jedną literę. (I to jest właśnie entropia Shannona naszego rozkładu prawdopodobieństwa.)
źródło