Co to jest empiryczna entropia?

19

W definicji wspólnie typowych zbiorów (w „Elementach teorii informacji”, rozdz. 7.6, s. 195) używamy

np(xn)= n i = 1 p(xi)

-1nlogp(xn)
jako empirycznej entropii wystąpienia -sequence z . Nigdy wcześniej nie spotkałem się z tą terminologią. Nigdzie nie jest wyraźnie zdefiniowane zgodnie z indeksem książki.np(xn)=ja=1np(xja)

Moje pytanie zasadniczo brzmi: dlaczego entropia empiryczna nie jest gdzie jest rozkładem empirycznym?P ( x )-xp^(x)log(p^(x))p^(x)

Jakie są najciekawsze różnice i podobieństwa między tymi dwiema formułami? (pod względem właściwości dzielą się / nie udostępniają).

blubb
źródło
Czy te dwa wyrażenia nie są algebraicznie równe?
whuber
1
@whuber: Nie, są różne ilości, do różnych celów, jak sądzę. Zauważ, że pierwszy używa prawdziwej miary przyjętej jako znana a priori. Drugi nie. p
kardynał
3
Ten pierwszy dotyczy akumulacji entropii w czasie i tego, jak porównuje się do prawdziwej entropii systemu. SLLN i CLT wiele mówią o tym, jak się zachowuje. Drugi dotyczy szacowania entropii na podstawie danych, a niektóre jego właściwości można również uzyskać za pomocą tych samych dwóch wspomnianych narzędzi. Ale podczas gdy pierwszy jest bezstronny, drugi nie jest pod żadnym . Mogę podać kilka szczegółów, jeśli byłoby to pomocne. p
kardynał
1
@cardinal: Jeśli podasz powyższy komentarz jako odpowiedź (być może również wyjaśnisz, czym są SLLN i CLT? - Nie znam ich) chętnie głosuję ...
blubb
Ok, postaram się opublikować później. W międzyczasie SLLN = „Silne prawo dużych liczb”, a CLT = „Twierdzenie o granicy centralnej”. Są to dość standardowe skróty, z którymi prawdopodobnie ponownie się spotkasz. Twoje zdrowie. :)
kardynał

Odpowiedzi:

16

Jeśli dane to , to znaczy n- sekwencja z przestrzeni próbnej , prawdopodobieństwo punktu empirycznego wynosi dla . Tutaj ma wartość jeden, jeśli a w przeciwnym razie zero. Oznacza to, że to względna częstotliwość obserwowanej sekwencji. Entropia rozkładu prawdopodobieństwa podane przez empirycznych prawdopodobieństw punktowych xn=x1xnnP ( x ) = 1XxXδx(xI)xI=x P (x)xH( t )=-Σx x P (x)Log P (x)=-x X 1

p^(x)=1n|{jaxja=x}|=1nja=1nδx(xja)
xXδx(xja)xja=xp^(x)x
H.(p^)=-xXp^(x)logp^(x)=-xX1nja=1nδx(xja)logp^(x)=-1nja=1nlogp^(xja).
Ta ostatnia tożsamość następuje po zamianie dwóch sum i zauważeniu, że Z tego wynika, że z i używając terminologii z pytania jest to empiryczna entropia empirycznego rozkładu prawdopodobieństwa . Jak wskazał @cardinal w komentarzu,
xXδx(xja)logp^(x)=logp^(xja).
H.(p^)=-1nlogp^(xn)
p^(xn)=ja=1np^(xja)-1nlogp(xn)jest empiryczną entropią danego rozkładu prawdopodobieństwa z prawdopodobieństwem punktowym .p
NRH
źródło
3
(+1) Stanowi to dobrą ilustrację tego, co Cover i Thomas nazywają „dziwnym autoreferencyjnym charakterem” entropii. Nie jestem jednak pewien, czy odpowiedź faktycznie (bezpośrednio) rozwiązuje pozorne obawy OP. :)
kardynał
@ cardinal, wiem, a odpowiedź była tylko długim komentarzem, aby podkreślić ten konkretny punkt. Nie chciałem powtarzać twoich punktów.
NRH
1
Nie powinieneś czuć się źle lub wahać się, aby opublikować własną odpowiedź, w tym rozwinięcie moich komentarzy lub komentarzy innych osób. Jestem szczególnie powolny i zły, jeśli chodzi o publikowanie odpowiedzi i nigdy nie obrażę się, jeśli ty lub inni wyślesz odpowiedzi zawierające aspekty rzeczy, o których wcześniej krótko skomentowałem. Wręcz przeciwnie. Twoje zdrowie.
kardynał
7

Entropia jest zdefiniowana dla rozkładów prawdopodobieństwa. Jeśli nie masz jednego, a jedynie danych, i wpiszesz naiwny estymator rozkładu prawdopodobieństwa, otrzymasz empiryczną entropię. Jest to najłatwiejsze w przypadku dystrybucji dyskretnych (wielomianowych), jak pokazano w innej odpowiedzi, ale można to również zrobić w przypadku innych dystrybucji poprzez binowanie itp.

Problem z empiryczną entropią polega na tym, że jest ona tendencyjna dla małych próbek. Naiwne oszacowanie rozkładu prawdopodobieństwa pokazuje dodatkową zmienność z powodu hałasu próbkowania. Oczywiście można użyć lepszego estymatora, np. Odpowiedniego wcześniejszego dla parametrów wielomianowych, ale uzyskanie naprawdę obiektywnej oceny nie jest łatwe.

Powyższe dotyczy również rozkładów warunkowych. Ponadto wszystko jest względne w stosunku do binowania (lub jądra), więc faktycznie macie swoistą entropię różnicową.

scellus
źródło
3
Powinniśmy uważać na to, co nazywamy tutaj empiryczną entropią . Należy pamiętać, że estymator wtyczek jest zawsze tendencyjnie niski dla wszystkich rozmiarów próbek, chociaż obciążenie będzie maleć wraz ze wzrostem wielkości próbki. Nie tylko trudno jest uzyskać obiektywne estymatory dla entropii, ale raczej niemożliwe w ogólnym przypadku. W ciągu ostatnich kilku lat przeprowadzono dość intensywne badania w tej dziedzinie, szczególnie w literaturze neuronauki. W rzeczywistości istnieje wiele negatywnych wyników.
kardynał