Wzajemne informacje a korelacja

Odpowiedzi:

77

Rozważmy jedną podstawową koncepcję korelacji (liniowej), kowariancję (która jest współczynnikiem korelacji Pearsona „unormalizowany”). Dla dwóch dyskretnych zmiennych losowych i z funkcjami masy prawdopodobieństwa , i połączonymi pmf mamyY p ( x ) p ( y ) p ( x , y )XYp(x)p(y)p(x,y)

Cov(X,Y)=E(XY)E(X)E(Y)=x,yp(x,y)xy(xp(x)x)(yp(y)y)

Cov(X,Y)=x,y[p(x,y)p(x)p(y)]xy

Wzajemne informacje między nimi są zdefiniowane jako

ja(X,Y)=mi(lnp(x,y)p(x)p(y))=x,yp(x,y)[lnp(x,y)-lnp(x)p(y)]

Porównaj oba: każdy zawiera punktową „miarę” odległości „dwóch rv od niezależności”, wyrażoną jako odległość wspólnego pmf od iloczynu krańcowego pmf: \ nazwa operatora {Cov} ( X, Y)Cov(X,Y) ma to jako różnicę poziomów, podczas gdy ja(X,Y) ma to jako różnicę logarytmów.

A co robią te środki? W tworzą one ważoną sumę iloczynu dwóch zmiennych losowych. W tworzą ważoną sumę swoich wspólnych prawdopodobieństw.I ( X , Y )Cov(X,Y)ja(X,Y)

Tak więc z patrzymy na to, co nie-niezależność robi na ich produkt, podczas gdy w patrzymy na to, co nie-niezależność robi na ich wspólny rozkład prawdopodobieństwa. I ( X , Y )Cov(X,Y)ja(X,Y)

odwrotnie, jest średnią wartością logarytmicznej miary odległości od niezależności, podczas gdy nazwa jest wartością ważoną miary poziomów odległości od niezależności, ważoną przez produkt z dwóch samochodów kempingowych.Cov ( X , Y )I(X,Y)Cov(X,Y)

Zatem nie są one antagonistyczne - są komplementarne, opisując różne aspekty powiązania między dwiema zmiennymi losowymi. Można skomentować, że informacja wzajemna „nie dotyczy” tego, czy powiązanie jest liniowe, czy nie, podczas gdy kowariancja może wynosić zero, a zmienne mogą być nadal zależne stochastycznie. Z drugiej strony, kowariancję można obliczyć bezpośrednio z próbki danych bez konieczności faktycznej znajomości rozkładów prawdopodobieństwa (ponieważ jest to wyrażenie obejmujące momenty rozkładu), podczas gdy wzajemne informacje wymagają wiedzy o rozkładach, których oszacowanie, jeśli nieznana, jest o wiele bardziej delikatną i niepewną pracą w porównaniu do oszacowania kowariancji.

Alecos Papadopoulos
źródło
@ Alecos Papadopoulos; Dziękujemy za wyczerpującą odpowiedź.
SaZa
1
Zadawałem sobie to samo pytanie, ale nie do końca zrozumiałem odpowiedź. @ Alecos Papadopoulos: Zrozumiałem, że zmierzona zależność nie jest taka sama, dobrze. Więc dla jakich relacji między X i Y powinniśmy preferować wzajemne informacje I (X, Y) niż Cov (X, Y)? Miałem ostatnio dziwny przykład, w którym Y był prawie liniowo zależny od X (była to prawie prosta na wykresie punktowym), a Corr (X, Y) był równy 0,87, podczas gdy I (X, Y) był równy 0,45 . Czy są więc oczywiste przypadki, w których jeden wskaźnik należy wybrać w stosunku do drugiego? Dzięki za pomoc!
Gandhi91
@ Gandhi91 Jaka była entropia , w tym konkretnym przypadku? H ( X )XH(X)
Alecos Papadopoulos
To świetna i bardzo jasna odpowiedź. Zastanawiałem się, czy masz łatwo dostępny przykład, gdzie cov wynosi 0, ale Pmi nie.
dniu
@thang. Nie całkiem. Należy znaleźć przykład, w którym kowariancja wynosi zero, a jednocześnie mieć dostępny wspólny rozkład, aby obliczyć wzajemną informację (a wspólny rozkład nie byłby iloczynem marginesów, ponieważ chcemy, aby zmienne nie były niezależny).
Alecos Papadopoulos
7

Wzajemna informacja to odległość między dwoma rozkładami prawdopodobieństwa. Korelacja to liniowa odległość między dwiema zmiennymi losowymi.

Możesz mieć wzajemną informację między dowolnymi dwoma prawdopodobieństwami zdefiniowanymi dla zestawu symboli, podczas gdy nie możesz mieć korelacji między symbolami, których nie można naturalnie zmapować w przestrzeni R ^ N.

Z drugiej strony, wzajemne informacje nie przyjmują założeń o niektórych właściwościach zmiennych ... Jeśli pracujesz z płynnymi zmiennymi, korelacja może ci więcej o nich powiedzieć; na przykład, jeśli ich związek jest monotoniczny.

Jeśli masz jakieś wcześniejsze informacje, możesz być w stanie przełączyć się między nimi; w dokumentacji medycznej można mapować symbole „ma genotyp A” jako 1 i „nie ma genotypu A” na wartości 0 i 1 i sprawdzić, czy ma to jakąś formę korelacji z jedną chorobą czy inną. Podobnie możesz wziąć zmienną, która jest ciągła (np. Wynagrodzenie), przekształcić ją w odrębne kategorie i obliczyć wzajemną informację między tymi kategoriami i innym zestawem symboli.

Pau Vilimelis Aceituno
źródło
Korelacja nie jest funkcją liniową. Czy należy powiedzieć, że korelacja jest miarą liniowej zależności między zmiennymi losowymi?
Matthew Gunn,
1
Myślę, że: „Kluczem może być wzajemna informacja między dowolnymi dwoma prawdopodobieństwami zdefiniowanymi dla zestawu symboli, podczas gdy nie możesz mieć korelacji między symbolami, które nie mogą być naturalnie odwzorowane w przestrzeni R ^ N”. Corr nie ma sensu, jeśli nie masz pełnej zmiennej losowej; jednak pmi ma sens nawet w przypadku formatu pdf i sigma (spacja). Dlatego w wielu aplikacjach, w których RV nie mają sensu (np. NLP), stosuje się pmi.
Thang
6

Oto przykład.

Na tych dwóch wykresach współczynnik korelacji wynosi zero. Ale możemy uzyskać wysoką wspólną informację, nawet gdy korelacja wynosi zero.

W pierwszym widzę, że jeśli mam wysoką lub niską wartość X, prawdopodobnie uzyskam wysoką wartość Y. Ale jeśli wartość X jest umiarkowana, to mam niską wartość Y. Pierwszy wykres przechowuje informacje o wspólnych informacjach udostępnianych przez X i Y. W drugim spisku X nie mówi mi nic o Y.

Wzajemne informacje a korelacja

dennislendrem
źródło
4

Chociaż oba z nich są miarą zależności między cechami, MI jest bardziej ogólne niż współczynnik korelacji (CE), ponieważ CE jest w stanie uwzględnić tylko relacje liniowe, ale MI może również obsługiwać relacje nieliniowe.

Hossein9
źródło
To nieprawda. Współczynnik korelacji Pearsona zakłada normalność i liniowość dwóch zmiennych losowych, alternatywy takie jak nieparametryczny Spearmana nie. Zakłada się tylko monotoniczność między dwoma RV.
miau