W definicji wspólnie typowych zbiorów (w „Elementach teorii informacji”, rozdz. 7.6, s. 195) używamy
np(xn)=∏ n i = 1 p(xi)
jako empirycznej entropii wystąpienia -sequence z . Nigdy wcześniej nie spotkałem się z tą terminologią. Nigdzie nie jest wyraźnie zdefiniowane zgodnie z indeksem książki.
Moje pytanie zasadniczo brzmi: dlaczego entropia empiryczna nie jest gdzie jest rozkładem empirycznym?P ( x )
Jakie są najciekawsze różnice i podobieństwa między tymi dwiema formułami? (pod względem właściwości dzielą się / nie udostępniają).
information-theory
entropy
blubb
źródło
źródło
Odpowiedzi:
Jeśli dane to , to znaczy n- sekwencja z przestrzeni próbnej , prawdopodobieństwo punktu empirycznego wynosi dla . Tutaj ma wartość jeden, jeśli a w przeciwnym razie zero. Oznacza to, że to względna częstotliwość obserwowanej sekwencji. Entropia rozkładu prawdopodobieństwa podane przez empirycznych prawdopodobieństw punktowychxn= x1… Xn n P ( x ) = 1X x∈Xδx(xI)xI=x P (x)xH( t )=-Σx∈ x P (x)Log P (x)=-∑x∈ X 1
źródło
Entropia jest zdefiniowana dla rozkładów prawdopodobieństwa. Jeśli nie masz jednego, a jedynie danych, i wpiszesz naiwny estymator rozkładu prawdopodobieństwa, otrzymasz empiryczną entropię. Jest to najłatwiejsze w przypadku dystrybucji dyskretnych (wielomianowych), jak pokazano w innej odpowiedzi, ale można to również zrobić w przypadku innych dystrybucji poprzez binowanie itp.
Problem z empiryczną entropią polega na tym, że jest ona tendencyjna dla małych próbek. Naiwne oszacowanie rozkładu prawdopodobieństwa pokazuje dodatkową zmienność z powodu hałasu próbkowania. Oczywiście można użyć lepszego estymatora, np. Odpowiedniego wcześniejszego dla parametrów wielomianowych, ale uzyskanie naprawdę obiektywnej oceny nie jest łatwe.
Powyższe dotyczy również rozkładów warunkowych. Ponadto wszystko jest względne w stosunku do binowania (lub jądra), więc faktycznie macie swoistą entropię różnicową.
źródło