W jaki sposób log (p (x, y)) normalizuje punktowe wzajemne informacje?

9

Próbuję zrozumieć znormalizowaną formę punktowej wzajemnej informacji.

npmja=pmja(x,y)losol(p(x,y))

Dlaczego prawdopodobieństwo połączenia logarytmicznego normalizuje punktowe wzajemne informacje na poziomie [-1, 1]?

Punktowa wzajemna informacja to:

pmja=losol(p(x,y)p(x)p(y))

p (x, y) jest ograniczone przez [0, 1], więc log (p (x, y)) jest ograniczony przez (, 0). Wydaje się, że log (p (x, y)) powinien w jakiś sposób równoważyć zmiany w licznik, ale nie rozumiem dokładnie jak. Przypomina mi również entropię h=-losol(p(x)), ale znowu nie rozumiem dokładnego związku.

2 centy
źródło
Na początek punktowa informacja wzajemna używa logarytmu (nie jestem pewien, czy jest to literówka, czy używasz innej ilości ).
Piotr Migdal

Odpowiedzi:

12

Z pozycji w Wikipedii na temat punktowych wzajemnych informacji :

Punktową wzajemną informację można znormalizować między [-1, + 1], co powoduje -1 (w granicy), że nigdy nie występuje razem, 0 dla niezależności i +1 dla całkowitego współwystąpienia.

Dlaczego tak się dzieje? Cóż, definicja punktowej wzajemnej informacji to

pmjalog[p(x,y)p(x)p(y)]=logp(x,y)-logp(x)-logp(y),

podczas gdy dla znormalizowanych punktowych informacji wzajemnych jest:

npmjapmja-logp(x,y)=log[p(x)p(y)]logp(x,y)-1.

Kiedy są:

  • brak współwystępowania, logp(x,y)-, więc nmpi wynosi -1,
  • przypadkowe współwystępowanie, logp(x,y)=log[p(x)p(y)], więc nmpi wynosi 0,
  • pełne współwystępowanie, logp(x,y)=logp(x)=logp(y), więc nmpi wynosi 1.
Piotr Migdal
źródło
Byłaby to bardziej kompletna odpowiedź, aby pokazać, dlaczego npmi jest w przedziale czasowym [-1,1]. Zobacz mój dowód w innej odpowiedzi.
Hans
1

Chociaż odpowiedź Piotra Migdala ma charakter informacyjny, podając przykłady, w których nmpi osiąga trzy skrajne wartości, nie dowodzi, że jest w przedziale [-1,1]. Oto nierówność i jej wyprowadzenie.

logp(x,y)logp(x,y))-logp(x)-logp(y)=logp(x,y)p(x)p(y)=:pmi(x;y)=logp(y|x)+logp(y|x)-logp(x,y)-logp(x,y)
tak jak -logp(ZA)0 na każde wydarzenie ZA. Dzielenie obu stron przez nieujemneh(x,y): =-logp(x,y), mamy
-1nmpi(x;y): =mpi (x; y)h(x,y)1.

Hans
źródło