Intuicja na temat wspólnej entropii

9

Mam problem z budowaniem intuicji na temat wspólnej entropii. H(X,Y) = niepewność w łącznym rozkładzie p(x,y); H(X) = niepewność w px(x); H(Y) = niepewność w py(y).

Jeśli H (X) jest wysoki, rozkład jest bardziej niepewny, a jeśli znasz wynik takiego rozkładu, masz więcej informacji! Zatem H (X) również kwantyfikuje informacje.

Teraz możemy pokazać H(X,Y)H(X)+H(Y)

Ale jeśli wiesz p(x,y) możesz dostać px(x) i py(y) w pewnym sensie p(x,y) ma więcej informacji niż oba px(x) i py(y), więc czy niepewność związana z p (x, y) nie powinna być czymś więcej niż sumą poszczególnych niepewności?

użytkownik21455
źródło

Odpowiedzi:

7

z reguły dodatkowe informacje nigdy nie zwiększają entropii, co formalnie określa się jako:

H(X|Y)H(X)

równość obowiązuje, jeżeli X i Y są niezależne, co oznacza H(X|Y)=H(X).

Wynik ten można wykorzystać do udowodnienia wspólnej entropii H(X1,X2,...,Xn)i=1nH(Xi). Aby to zademonstrować, rozważ prosty przypadekH(X,Y). Zgodnie z regułą łańcucha możemy zapisać entropię łączenia jak poniżej

H(X,Y)=H(X|Y)+H(Y)

Biorąc pod uwagę nierówność , H(X|Y) nigdy nie zwiększa entropii zmiennej X, i stąd H(X,Y)H(X)+H(Y). Za pomocą indukcji można uogólnić ten wynik na przypadki, które obejmują więcej niż dwie zmienne.

Mam nadzieję, że pomogło to zmniejszyć dwuznaczność (lub twoją entropię) dotyczącą wspólnej entropii!

omidi
źródło
4

Istnieje inny punkt widzenia na entropię Shannona. Wyobraź sobie, że chcesz odgadnąć poprzez pytania, jaka jest konkretna wartość zmiennej. Dla uproszczenia wyobraź sobie, że wartość może przyjąć tylko osiem różnych wartości(0,1,...,8)i wszystkie są jednakowo prawdopodobne.

Najbardziej efektywnym sposobem jest wyszukiwanie binarne. Najpierw pytasz, czy jest większa czy mniejsza niż 4. Następnie porównaj z 2 lub 6 itd. W sumie nie potrzebujesz więcej niż trzech pytań (czyli liczby bitów tego konkretnego rozkładu).

Możemy kontynuować analogię dla przypadku dwóch zmiennych. Jeśli nie są one niezależne, to znajomość wartości jednego z nich pomaga lepiej zgadywać (średnio) do następnego pytania (znajduje to odzwierciedlenie w wynikach wskazanych przez omidi ). Stąd entropia jest niższa, chyba że są całkowicie niezależni, gdzie trzeba odgadnąć ich wartości niezależnie. Mówiąc, że entropia jest niższa oznacza (w tym konkretnym przykładzie), że średnio musisz zadawać mniej pytań (tj. Częściej będziesz zgadywać).

jpmuc
źródło
2

Wygląda na to, że myślisz „jeśli więcej informacji, gdy są znane, to więcej entropii, gdy nieznane”. To nie jest prawidłowa intuicja, ponieważ jeśli rozkład jest nieznany, nie znamy nawet jego entropii. Jeśli rozkład jest znany, wówczas entropia określa ilość informacji potrzebną do opisania niepewności związanej z realizacją zmiennej losowej, która pozostaje nieznana (znamy strukturę otaczającą tę niepewność, znając rozkład). Entropia nie określa ilościowo informacji „obecnych” w dystrybucji. Wręcz przeciwnie: im więcej informacji „uwzględniono” w dystrybucji, tym mniej informacji „potrzebnych” do opisania niepewności, a zatem im mniejentropia jest. Rozważmy równomierny rozkład: zawiera on bardzo mało informacji, ponieważ wszystkie możliwe wartości zmiennej są możliwe do wyrównania: stąd ma maksymalną entropię między wszystkimi rozkładami z ograniczonym wsparciem.

Jeśli chodzi o Joint Entropy, możesz myśleć o tym w następujący sposób: rozkład połączeń zawiera informacje o tym, czy dwie zmienne są zależne, czy nie, a także informacje wystarczające do uzyskania rozkładów krańcowych. Rozkłady krańcowe nie zawierają informacji o tym, czy dwie zmienne losowe są zależne czy niezależne. Tak więc wspólny rozkład ma więcej informacji i daje nam mniej niepewności związanej z zaangażowanymi zmiennymi losowymi:

Więcej informacji zawartych w dystrybucji mniej niepewności wokół zmiennych mniej informacji potrzebnych do opisania tej niepewności mniej entropii.

Alecos Papadopoulos
źródło
Dzięki, to wszystko wyjaśnia. Myślałem wzdłuż linii, że korelacje w rozkładach powinny zmniejszać niepewność pary wartości(X,Y) i stąd H(X,Y) musi być mniejszy niż to H(X)+H(Y).
user21455
Tak, to jest istota.
Alecos Papadopoulos