Co mówi nam entropia?

32

Czytam o entropii i trudno mi zrozumieć, co to znaczy w ciągłym przypadku. Strona wiki zawiera następujące informacje:

Rozkład prawdopodobieństwa zdarzeń w połączeniu z ilością informacji każdego zdarzenia tworzy zmienną losową, której oczekiwaną wartością jest średnia ilość informacji lub entropia wygenerowana przez ten rozkład.

Więc jeśli obliczę entropię związaną z ciągłym rozkładem prawdopodobieństwa, co to tak naprawdę mówi? Podają przykład rzucania monetami, więc dyskretny przypadek, ale jeśli istnieje intuicyjny sposób na wyjaśnienie takiego przykładu w przypadku ciągłym, byłoby świetnie!

Jeśli to pomaga, definicja entropii dla ciągłej zmiennej losowej jest następująca:X

H(X)=P(x)logbP(x)dx
gdzie jest funkcją rozkładu prawdopodobieństwa.P(x)

Aby uczynić to bardziej konkretnym, rozważ przypadek , a następnie, zgodnie z Wikipedią , entropia jestXGamma(α,β)

H(X)=E[ln(P(X))]=E[αln(β)+ln(Γ(α))+ln(Γ(α))(α1)ln(X)+βX]=αln(β)+ln(Γ(α))+(1α)(ddαln(Γ(α)))

I tak teraz obliczyliśmy entropię dla rozkładu ciągłego (rozkład gamma), więc jeśli teraz ocenię to wyrażenie, , biorąc pod uwagę i , co ta liczba faktycznie mi mówi? H(X)αβ

RustyStatistician
źródło
5
(+1) Ten cytat odnosi się do naprawdę niefortunnego fragmentu. Próbuje w pracochłonny i nieprzejrzysty sposób opisać i zinterpretować matematyczną definicję entropii. Ta definicja to . Może to być traktowane jako oczekiwaniem , gdzie jest pdf zmiennej losowej . Próbuje scharakteryzować jako „ilość informacji” związaną z liczbą . f(x)log(f(x))dxlog(f(X))fXlog(f(x))x
whuber
5
Warto zapytać, ponieważ istnieje delikatna, ale ważna kwestia techniczna: ciągła wersja entropii nie ma takich samych właściwości jak wersja dyskretna (która ma naturalną, intuicyjną interpretację pod względem informacji). @Tim AFAIK, ten wątek Matematyki dotyczy tylko dyskretnego przypadku.
whuber
1
@ RustyStatistician myśli o , który mówi ci, jak zaskakujący był wynik x. Następnie obliczasz oczekiwaną niespodziankę. log(f(x))
Adrian
3
Jeśli chodzi o problem techniczny @ odniesienia do whubera, może to być interesujące.
Sean Easter
3
Jeśli interesują Cię szczegóły techniczne: Entropy jest oparty na pseudometrii zwanej rozbieżnością Kullbacka-Leiblera, która służy do opisu odległości między zdarzeniami w ich odpowiednich miarach, zobacz oryginał projecteuclid.org/euclid.aoms/1177729694 ( i groudbreaking) papier Kullbacka i Leiblera. Koncepcja pojawia się również w kryteriach wyboru modelu, takich jak AIC i BIC.
Jeremias K

Odpowiedzi:

31

Entropia mówi ci, ile niepewności jest w systemie. Powiedzmy, że szukasz kota, a wiesz, że jest on gdzieś między twoim domem a sąsiadami, który jest oddalony o 1,5 km. Twoje dzieci mówią, że prawdopodobieństwo przebywania kota w odległości od domu najlepiej opisuje rozkład beta . Tak więc kot może znajdować się w przedziale od 0 do 1, ale bardziej prawdopodobne jest, że będzie w środku, tj. .x f(x;2,2)xmax=1/2

wprowadź opis zdjęcia tutaj

rozkład beta do twojego równania, a następnie otrzymasz .H=0.125

Następnie pytasz swoją żonę, a ona mówi ci, że najlepszym rozkładem opisującym jej wiedzę o twoim kocie jest rozkład jednolity. Jeśli podłączysz go do równania entropii, otrzymasz .H=0

Zarówno dystrybucja jednolita, jak i beta pozwalają kotowi znajdować się w odległości od 0 do 1 mili od twojego domu, ale w mundurze jest więcej niepewności, ponieważ twoja żona tak naprawdę nie ma pojęcia, gdzie kot się ukrywa, podczas gdy dzieci mają jakiś pomysł , myślą , że to bardziej prawdopodobnie będzie gdzieś pośrodku. Właśnie dlatego entropia Beta jest niższa niż entropia Uniform.

wprowadź opis zdjęcia tutaj

Możesz wypróbować inne dystrybucje, być może twój sąsiad powie ci, że kot lubi być w pobliżu jednego z domów, więc jego dystrybucja beta ma postać . Jego musi być znowu niższy niż munduru, ponieważ masz pojęcie o tym, gdzie szukać kota. Zgadnij, czy entropia informacji twojego sąsiada jest wyższa czy niższa niż dzieci? Zakładałbym się na dzieci każdego dnia w tych sprawach.α=β=1/2H

wprowadź opis zdjęcia tutaj

AKTUALIZACJA:

Jak to działa? Jednym ze sposobów myślenia o tym jest rozpoczęcie od jednolitego rozkładu. Jeśli zgadzasz się z tym, że jest to najbardziej niepewny, pomyśl o tym, by mu przeszkadzać. Spójrzmy na dyskretny przypadek dla uproszczenia. Weź z jednego punktu i dodaj go do innego w następujący sposób: Δp

pi=pΔp
pj=p+Δp

Zobaczmy teraz, jak zmienia się entropia: Oznacza to, że wszelkie zakłócenia rozkładu równomiernego zmniejszają entropię (niepewność). Aby pokazać to samo w ciągłym przypadku, musiałbym użyć rachunku wariacyjnego lub czegoś wzdłuż tej linii, ale w zasadzie otrzymasz ten sam rodzaj wyniku.

HH=pilnpipiln(piΔp)+pjlnpjpjln(pj+Δp)
=plnppln[p(1Δp/p)]+plnppln[p(1+Δp/p)]
=ln(1Δp/p)ln(1+Δp/p)>0

AKTUALIZACJA 2: Średnia jednolitych zmiennych losowych jest samą zmienną losową i pochodzi z rozkładu Batesa . Z CLT wiemy, że wariancja tej nowej zmiennej losowej zmniejsza się z . Tak więc niepewność jego lokalizacji musi maleć wraz ze wzrostem : jesteśmy coraz bardziej pewni, że kot jest w środku. Mój następny wykres i kod MATLAB pokazują, jak entropia zmniejsza się od 0 dla (rozkład równomierny) do . Korzystam z biblioteki Distribution31 tutaj.nnnn=1n=13

wprowadź opis zdjęcia tutaj

x = 0:0.01:1;
for k=1:5
    i = 1 + (k-1)*3;
    idx(k) = i;
    f = @(x)bates_pdf(x,i);
    funb=@(x)f(x).*log(f(x));
    fun = @(x)arrayfun(funb,x);
    h(k) = -integral(fun,0,1);
    subplot(1,5+1,k)

    plot(x,arrayfun(f,x))
    title(['Bates(x,' num2str(i) ')'])
    ylim([0 6])
end

subplot(1,5+1,5+1)
plot(idx,h)
title 'Entropy'
Aksakal
źródło
1
(+1) Będę czekać na inne interpretacje, ale bardzo mi się podobają. Wydaje się więc, że można wykorzystać entropię jako miarę pewności, którą należy porównać z innymi dystrybucjami? Tj. Liczba sama w sobie niewiele mówi?
RustyStatistician
1
@RustyStatistician, nie powiedziałbym, że jego wartość bezwzględna jest całkowicie bez znaczenia., Ale tak, jest najbardziej przydatna, gdy używana jest do porównywania stanów systemu.
Łatwym
Problem z tą odpowiedzią polega na tym, że termin „niepewność” pozostaje niezdefiniowany.
kjetil b halvorsen
1
termin pozostaje niepewny
Aksakal
To jest bardzo miłe.
Astrid
1

Chciałbym dodać bezpośrednią odpowiedź na to pytanie:

co ta ilość faktycznie mi mówi?

Zilustrowanie tego w dyskretnym scenariuszu jest intuicyjne. Załóżmy, że rzucasz mocno stronniczą monetą, mówiąc, że prawdopodobieństwo zobaczenia głowy na każdym rzucie wynosi 0,99. Każda rzeczywista klapka mówi ci bardzo mało informacji, ponieważ prawie już wiesz, że to będzie głowa. Ale jeśli chodzi o bardziej sprawiedliwą monetę, nietrudniej jest mieć jakieś wyczekiwanie, czego można się spodziewać, wtedy każda klapka przekazuje więcej informacji niż jakakolwiek bardziej stronnicza moneta. Ilość informacji uzyskanych dzięki obserwacji pojedynczego rzutu jest równa .log1p(x)

Ilość entropii mówi nam o informacjach, które może przekazać każda rzeczywista średnia (ważona) : . Im sprawiedliwsza moneta, tym większa entropia, a całkowicie uczciwa moneta będzie maksymalnie informacyjna.Elog1p(x)=p(x)log1p(x)

Lerner Zhang
źródło